論文の概要: RIFT: Reordered Instruction Following Testbed To Evaluate Instruction Following in Singular Multistep Prompt Structures
- arxiv url: http://arxiv.org/abs/2601.18924v1
- Date: Mon, 26 Jan 2026 19:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.049439
- Title: RIFT: Reordered Instruction Following Testbed To Evaluate Instruction Following in Singular Multistep Prompt Structures
- Title(参考訳): RIFT:Singular Multistep Prompt Structureにおけるインストラクション後のインストラクション評価のためのテストベッドによるリオーダーインストラクション
- Authors: Andrew Jaffe, Noah Reicin, Jinho D. Choi,
- Abstract要約: コンテンツから構造を引き離すことにより, RIFT (Reordered Instruction following Testbed) を導入する。
6つの最先端のオープンソースLLMにまたがる1万を超える評価では、ジャンプ条件下では精度が最大72%低下した。
その結果、現在のアーキテクチャの基本的限界として構造感度が明らかとなった。
- 参考スコア(独自算出の注目度): 7.812349915277743
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are increasingly relied upon for complex workflows, yet their ability to maintain flow of instructions remains underexplored. Existing benchmarks conflate task complexity with structural ordering, making it difficult to isolate the impact of prompt topology on performance. We introduce RIFT, Reordered Instruction Following Testbed, to assess instruction following by disentangling structure from content. Using rephrased Jeopardy! question-answer pairs, we test LLMs across two prompt structures: linear prompts, which progress sequentially, and jumping prompts, which preserve identical content but require non-sequential traversal. Across 10,000 evaluations spanning six state-of-the-art open-source LLMs, accuracy dropped by up to 72% under jumping conditions (compared to baseline), revealing a strong dependence on positional continuity. Error analysis shows that approximately 50% of failures stem from instruction-order violations and semantic drift, indicating that current architectures internalize instruction following as a sequential pattern rather than a reasoning skill. These results reveal structural sensitivity as a fundamental limitation in current architectures, with direct implications for applications requiring non-sequential control flow such as workflow automation and multi-agent systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑なワークフローにますます依存しているが、命令の流れを維持する能力はいまだ探索されていない。
既存のベンチマークでは、タスクの複雑さを構造的な順序付けと説明しており、迅速なトポロジがパフォーマンスに与える影響を分離することは困難である。
コンテンツから構造を引き離すことにより, RIFT (Reordered Instruction following Testbed) を導入する。
線形プロンプト(線形プロンプト)とジャンププロンプト(ジャンププロンプト)の2つのプロンプト構造でLLMをテストする。
6つの最先端のオープンソースLLMにまたがる1万を超える評価では、ジャンプ条件(ベースラインと比較して)下での精度が最大72%低下し、位置連続性への強い依存が示された。
誤り解析により、障害の約50%は命令順序違反と意味的ドリフトによるものであることが示され、現在のアーキテクチャは推論技術ではなく、逐次的なパターンとして命令を内部化することを示している。
これらの結果から,ワークフロー自動化やマルチエージェントシステムといった非逐次制御フローを必要とするアプリケーションに直接的な意味を持つ,現在のアーキテクチャの基本的制限としての構造感度が明らかになった。
関連論文リスト
- LSRIF: Logic-Structured Reinforcement Learning for Instruction Following [56.517329105764475]
命令論理を明示的にモデル化するロジック構造化学習フレームワーク LSRIF を提案する。
実験の結果、LSRIFは命令追従と一般的な推論に大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2026-01-10T05:11:38Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - Quantifying Laziness, Decoding Suboptimality, and Context Degradation in Large Language Models [0.4511923587827302]
大規模言語モデル(LLM)は、遅延性、復号化部分最適化、文脈劣化などの振る舞いのアーチファクトを示すことが多い。
以上の結果から, 複雑な多部命令を満足する上で, 広範囲な怠け度が示唆された。
遅延を減らし、マルチインストラクションコンプライアンスを強化する戦略を提案する。
論文 参考訳(メタデータ) (2025-12-19T03:01:59Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models [31.962209251193272]
CoT(Chain-of- Thought)は、大規模言語モデル(LLM)の能力を普遍的に改善することが期待される。
テスト時間計算のスケーリングに対する推論をインセンティブ化することで,複雑な命令を扱う上でのLLMを向上する体系的手法であるRAIFを提案する。
より優れたCoT施行のためのサンプルワイドコントラストによる複雑な指示の下での推論の浅く、重要でない性質に対処する。
論文 参考訳(メタデータ) (2025-06-02T08:11:44Z) - DecIF: Improving Instruction-Following through Meta-Decomposition [9.939860059820917]
DecIFは、多種多様な高品質の命令追従データを生成する、完全に自律的でメタ分解誘導フレームワークである。
命令生成のために,LLMは様々なメタ情報を反復的に生成し,応答制約と組み合わせて意味的にリッチな命令を生成するように誘導する。
応答生成のために、各命令を原子レベルの評価基準に分解し、厳密な検証と不正確な命令応答対の除去を可能にする。
論文 参考訳(メタデータ) (2025-05-20T06:38:28Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - AIR: Complex Instruction Generation via Automatic Iterative Refinement [29.639832268719363]
複雑な命令を生成するための現在のアプローチは、しばしば現在の命令要求とは無関係である。
本稿では,制約付き複雑な命令を生成するための,新しい反復修正フレームワークを提案する。
10Kの複雑な命令でAIR-10Kデータセットを構築し、我々のアプローチで生成された命令は、複雑な命令に従うモデルの能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-25T02:39:57Z) - RAS: Retrieval-And-Structuring for Knowledge-Intensive LLM Generation [46.237206695937246]
本稿では,クエリ固有の知識グラフを動的に構築するフレームワークであるRetrieval-And-Structuring (RAS)を提案する。
7つの知識集約ベンチマークでは、RASは一貫して強力なベースラインを上回っている。
この結果から,動的クエリ固有知識構造化は,言語モデル生成における推論精度と堅牢性を向上させるための堅牢な経路を提供することが示された。
論文 参考訳(メタデータ) (2025-02-16T05:01:49Z) - Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。
従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。
本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文 参考訳(メタデータ) (2024-10-31T17:42:26Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。