論文の概要: RIFT: Reordered Instruction Following Testbed To Evaluate Instruction Following in Singular Multistep Prompt Structures
- arxiv url: http://arxiv.org/abs/2601.18924v1
- Date: Mon, 26 Jan 2026 19:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.049439
- Title: RIFT: Reordered Instruction Following Testbed To Evaluate Instruction Following in Singular Multistep Prompt Structures
- Title(参考訳): RIFT:Singular Multistep Prompt Structureにおけるインストラクション後のインストラクション評価のためのテストベッドによるリオーダーインストラクション
- Authors: Andrew Jaffe, Noah Reicin, Jinho D. Choi,
- Abstract要約: コンテンツから構造を引き離すことにより, RIFT (Reordered Instruction following Testbed) を導入する。
6つの最先端のオープンソースLLMにまたがる1万を超える評価では、ジャンプ条件下では精度が最大72%低下した。
その結果、現在のアーキテクチャの基本的限界として構造感度が明らかとなった。
- 参考スコア(独自算出の注目度): 7.812349915277743
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are increasingly relied upon for complex workflows, yet their ability to maintain flow of instructions remains underexplored. Existing benchmarks conflate task complexity with structural ordering, making it difficult to isolate the impact of prompt topology on performance. We introduce RIFT, Reordered Instruction Following Testbed, to assess instruction following by disentangling structure from content. Using rephrased Jeopardy! question-answer pairs, we test LLMs across two prompt structures: linear prompts, which progress sequentially, and jumping prompts, which preserve identical content but require non-sequential traversal. Across 10,000 evaluations spanning six state-of-the-art open-source LLMs, accuracy dropped by up to 72% under jumping conditions (compared to baseline), revealing a strong dependence on positional continuity. Error analysis shows that approximately 50% of failures stem from instruction-order violations and semantic drift, indicating that current architectures internalize instruction following as a sequential pattern rather than a reasoning skill. These results reveal structural sensitivity as a fundamental limitation in current architectures, with direct implications for applications requiring non-sequential control flow such as workflow automation and multi-agent systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑なワークフローにますます依存しているが、命令の流れを維持する能力はいまだ探索されていない。
既存のベンチマークでは、タスクの複雑さを構造的な順序付けと説明しており、迅速なトポロジがパフォーマンスに与える影響を分離することは困難である。
コンテンツから構造を引き離すことにより, RIFT (Reordered Instruction following Testbed) を導入する。
線形プロンプト(線形プロンプト)とジャンププロンプト(ジャンププロンプト)の2つのプロンプト構造でLLMをテストする。
6つの最先端のオープンソースLLMにまたがる1万を超える評価では、ジャンプ条件(ベースラインと比較して)下での精度が最大72%低下し、位置連続性への強い依存が示された。
誤り解析により、障害の約50%は命令順序違反と意味的ドリフトによるものであることが示され、現在のアーキテクチャは推論技術ではなく、逐次的なパターンとして命令を内部化することを示している。
これらの結果から,ワークフロー自動化やマルチエージェントシステムといった非逐次制御フローを必要とするアプリケーションに直接的な意味を持つ,現在のアーキテクチャの基本的制限としての構造感度が明らかになった。
関連論文リスト
- LSRIF: Logic-Structured Reinforcement Learning for Instruction Following [56.517329105764475]
命令論理を明示的にモデル化するロジック構造化学習フレームワーク LSRIF を提案する。
実験の結果、LSRIFは命令追従と一般的な推論に大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2026-01-10T05:11:38Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models [31.962209251193272]
CoT(Chain-of- Thought)は、大規模言語モデル(LLM)の能力を普遍的に改善することが期待される。
テスト時間計算のスケーリングに対する推論をインセンティブ化することで,複雑な命令を扱う上でのLLMを向上する体系的手法であるRAIFを提案する。
より優れたCoT施行のためのサンプルワイドコントラストによる複雑な指示の下での推論の浅く、重要でない性質に対処する。
論文 参考訳(メタデータ) (2025-06-02T08:11:44Z) - DecIF: Improving Instruction-Following through Meta-Decomposition [9.939860059820917]
DecIFは、多種多様な高品質の命令追従データを生成する、完全に自律的でメタ分解誘導フレームワークである。
命令生成のために,LLMは様々なメタ情報を反復的に生成し,応答制約と組み合わせて意味的にリッチな命令を生成するように誘導する。
応答生成のために、各命令を原子レベルの評価基準に分解し、厳密な検証と不正確な命令応答対の除去を可能にする。
論文 参考訳(メタデータ) (2025-05-20T06:38:28Z) - Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。
従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。
本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文 参考訳(メタデータ) (2024-10-31T17:42:26Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。