Fugu-MT 論文翻訳(概要): How Many Instructions Can LLMs Follow at Once?

論文の概要: How Many Instructions Can LLMs Follow at Once?

arxiv url: http://arxiv.org/abs/2507.11538v1
Date: Tue, 15 Jul 2025 17:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-16 19:46:03.217322
Title: How Many Instructions Can LLMs Follow at Once?
Title（参考訳）: 一度にLLMをフォローできるインストラクションはいくつあるか?
Authors: Daniel Jaroslawicz, Brendan Whiting, Parth Shah, Karime Maamari,
Abstract要約: ビジネスレポート作成タスクのための500のキーワード包含命令の単純なベンチマークであるIFScaleを導入し、命令密度が増大するにつれて、命令追従性能がどのように低下するかを測定する。我々は、7つの主要プロバイダにわたる20の最先端モデルを評価し、最高のフロンティアモデルでさえ500命令の最大密度で68%の精度しか達成できないことを発見した。私たちの洞察は、実世界のアプリケーションにおける命令密度プロンプトの設計に役立ち、重要なパフォーマンスとレイテンシのトレードオフを浮き彫りにします。
参考スコア（独自算出の注目度）: 0.16874375111244325
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Production-grade LLM systems require robust adherence to dozens or even hundreds of instructions simultaneously. However, the instruction-following capabilities of LLMs at high instruction densities have not yet been characterized, as existing benchmarks only evaluate models on tasks with a single or few instructions. We introduce IFScale, a simple benchmark of 500 keyword-inclusion instructions for a business report writing task to measure how instruction-following performance degrades as instruction density increases. We evaluate 20 state-of-the-art models across seven major providers and find that even the best frontier models only achieve 68% accuracy at the max density of 500 instructions. Our analysis reveals model size and reasoning capability to correlate with 3 distinct performance degradation patterns, bias towards earlier instructions, and distinct categories of instruction-following errors. Our insights can help inform design of instruction-dense prompts in real-world applications and highlight important performance-latency tradeoffs. We open-source the benchmark and all results for further analysis at https://distylai.github.io/IFScale.
Abstract（参考訳）: プロダクショングレードのLLMシステムでは、数十の命令や数百の命令を同時にしっかりと守らなければならない。しかし、既存のベンチマークでは1つまたは少数の命令を持つタスクのモデルのみを評価するため、高い命令密度でのLLMの命令追従能力は、まだ特徴付けられていない。ビジネスレポート作成タスクのための500のキーワード包含命令の単純なベンチマークであるIFScaleを導入し、命令密度が増大するにつれて、命令追従性能がいかに低下するかを測定する。我々は、7つの主要プロバイダにわたる20の最先端モデルを評価し、最高のフロンティアモデルでさえ500命令の最大密度で68%の精度しか達成できないことを発見した。分析の結果,モデルのサイズと推論能力は,3つの異なる性能劣化パターン,先行命令への偏り,命令追従エラーの別カテゴリと相関することがわかった。私たちの洞察は、実世界のアプリケーションにおける命令密度プロンプトの設計に役立ち、重要なパフォーマンスレイテンシのトレードオフを浮き彫りにします。ベンチマークと結果はすべて、https://distylai.github.io/IFScale.comで公開しています。

関連論文リスト

Training with Pseudo-Code for Instruction Following [4.7188893422904]
我々は、擬似コードで表現された場合、モデルが指示に従うことを示唆する最近の研究から着想を得た。擬似コードで再表現された命令を含む命令調整データを用いた微調整大規模言語モデルを提案する。我々は、5ドルの異なるモデルで厳密な実験を行い、擬似コードで訓練された場合、モデルが指示に従うだけでなく、数学的および常識推論に関連する他のタスクにもその能力を維持することを発見した。
論文参考訳（メタデータ） (2025-05-23T15:14:29Z)
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
KCIF: Knowledge-Conditioned Instruction Following [4.945902994386117]
我々は,知識と指示の相互作用について検討し,LLMが単純な回答修正命令に従うのに苦労していることを観察する。本結果は,従来の知識・推論・指導の分離の限界を強調し,これらの機能の共同研究が重要であることを示唆している。
論文参考訳（メタデータ） (2024-10-16T19:07:37Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文参考訳（メタデータ） (2024-07-22T17:55:22Z)
MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文参考訳（メタデータ） (2024-07-01T17:53:35Z)
The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models [48.455388608863785]
本稿では,複数の命令を逐次的に追従するモデルの性能を評価するためのベンチマークを提案する。我々のベンチマークは,4つのタスク(テキスト修正,質問応答,数学,セキュリティルール)を用いて,指示に従うことを評価する。より最近のモデルでは、SIFoタスクにおいて、より古いモデルやより小さなモデルよりも大幅に優れており、ベンチマークの有効性が検証されている。
論文参考訳（メタデータ） (2024-06-28T15:34:26Z)
Instruction-Following Evaluation for Large Language Models [52.90926820437014]
大規模言語モデルに対するインストラクション・フォロー・エスバル(IFEval)を提案する。 IFEvalは、単純で簡単に再現できる評価ベンチマークである。市場における2つのLLMの評価結果を示す。
論文参考訳（メタデータ） (2023-11-14T05:13:55Z)
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning [111.01953096869947]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上に視覚的指導チューニングが不可欠である我々は,高品質な視覚的推論命令を自動生成する体系的手法を開発した。実験結果から, MLLMの強化性能が一貫した結果を得た。
論文参考訳（メタデータ） (2023-11-02T15:36:12Z)
Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models [91.02730155418699]
大規模言語モデル(LLM)は、自然言語命令に従うことで幅広いタスクを実行できる。 LLMに提供される命令の質を自動改善する新しい手法であるAuto-Instructを導入する。 118のアウトオブドメインタスクの実験では、Auto-Instructは人間による命令と既存のLCM生成命令のベースラインを超越している。
論文参考訳（メタデータ） (2023-10-19T19:52:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。