論文の概要: How Many Instructions Can LLMs Follow at Once?
- arxiv url: http://arxiv.org/abs/2507.11538v1
- Date: Tue, 15 Jul 2025 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.217322
- Title: How Many Instructions Can LLMs Follow at Once?
- Title(参考訳): 一度にLLMをフォローできるインストラクションはいくつあるか?
- Authors: Daniel Jaroslawicz, Brendan Whiting, Parth Shah, Karime Maamari,
- Abstract要約: ビジネスレポート作成タスクのための500のキーワード包含命令の単純なベンチマークであるIFScaleを導入し、命令密度が増大するにつれて、命令追従性能がどのように低下するかを測定する。
我々は、7つの主要プロバイダにわたる20の最先端モデルを評価し、最高のフロンティアモデルでさえ500命令の最大密度で68%の精度しか達成できないことを発見した。
私たちの洞察は、実世界のアプリケーションにおける命令密度プロンプトの設計に役立ち、重要なパフォーマンスとレイテンシのトレードオフを浮き彫りにします。
- 参考スコア(独自算出の注目度): 0.16874375111244325
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Production-grade LLM systems require robust adherence to dozens or even hundreds of instructions simultaneously. However, the instruction-following capabilities of LLMs at high instruction densities have not yet been characterized, as existing benchmarks only evaluate models on tasks with a single or few instructions. We introduce IFScale, a simple benchmark of 500 keyword-inclusion instructions for a business report writing task to measure how instruction-following performance degrades as instruction density increases. We evaluate 20 state-of-the-art models across seven major providers and find that even the best frontier models only achieve 68% accuracy at the max density of 500 instructions. Our analysis reveals model size and reasoning capability to correlate with 3 distinct performance degradation patterns, bias towards earlier instructions, and distinct categories of instruction-following errors. Our insights can help inform design of instruction-dense prompts in real-world applications and highlight important performance-latency tradeoffs. We open-source the benchmark and all results for further analysis at https://distylai.github.io/IFScale.
- Abstract(参考訳): プロダクショングレードのLLMシステムでは、数十の命令や数百の命令を同時にしっかりと守らなければならない。
しかし、既存のベンチマークでは1つまたは少数の命令を持つタスクのモデルのみを評価するため、高い命令密度でのLLMの命令追従能力は、まだ特徴付けられていない。
ビジネスレポート作成タスクのための500のキーワード包含命令の単純なベンチマークであるIFScaleを導入し、命令密度が増大するにつれて、命令追従性能がいかに低下するかを測定する。
我々は、7つの主要プロバイダにわたる20の最先端モデルを評価し、最高のフロンティアモデルでさえ500命令の最大密度で68%の精度しか達成できないことを発見した。
分析の結果,モデルのサイズと推論能力は,3つの異なる性能劣化パターン,先行命令への偏り,命令追従エラーの別カテゴリと相関することがわかった。
私たちの洞察は、実世界のアプリケーションにおける命令密度プロンプトの設計に役立ち、重要なパフォーマンスレイテンシのトレードオフを浮き彫りにします。
ベンチマークと結果はすべて、https://distylai.github.io/IFScale.comで公開しています。
関連論文リスト
- KCIF: Knowledge-Conditioned Instruction Following [4.945902994386117]
我々は,知識と指示の相互作用について検討し,LLMが単純な回答修正命令に従うのに苦労していることを観察する。
本結果は,従来の知識・推論・指導の分離の限界を強調し,これらの機能の共同研究が重要であることを示唆している。
論文 参考訳(メタデータ) (2024-10-16T19:07:37Z) - MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。
提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文 参考訳(メタデータ) (2024-07-22T17:55:22Z) - MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。
私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文 参考訳(メタデータ) (2024-07-01T17:53:35Z) - The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models [48.455388608863785]
本稿では,複数の命令を逐次的に追従するモデルの性能を評価するためのベンチマークを提案する。
我々のベンチマークは,4つのタスク(テキスト修正,質問応答,数学,セキュリティルール)を用いて,指示に従うことを評価する。
より最近のモデルでは、SIFoタスクにおいて、より古いモデルやより小さなモデルよりも大幅に優れており、ベンチマークの有効性が検証されている。
論文 参考訳(メタデータ) (2024-06-28T15:34:26Z) - Instruction-Following Evaluation for Large Language Models [52.90926820437014]
大規模言語モデルに対するインストラクション・フォロー・エスバル(IFEval)を提案する。
IFEvalは、単純で簡単に再現できる評価ベンチマークである。
市場における2つのLLMの評価結果を示す。
論文 参考訳(メタデータ) (2023-11-14T05:13:55Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning [111.01953096869947]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上に視覚的指導チューニングが不可欠である
我々は,高品質な視覚的推論命令を自動生成する体系的手法を開発した。
実験結果から, MLLMの強化性能が一貫した結果を得た。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。