論文の概要: Many-Tier Instruction Hierarchy in LLM Agents
- arxiv url: http://arxiv.org/abs/2604.09443v2
- Date: Mon, 13 Apr 2026 15:26:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.584869
- Title: Many-Tier Instruction Hierarchy in LLM Agents
- Title(参考訳): LLMエージェントにおける多層命令階層
- Authors: Jingyu Zhang, Tianjian Li, William Jurayj, Hongyuan Zhan, Benjamin Van Durme, Daniel Khashabi,
- Abstract要約: Many-Tier Instruction Hierarchy (ManyIH)は、任意の特権レベルを持つ命令間の命令競合を解決するためのパラダイムである。
ManyIH-Benchは、LLMによって開発され、人間が検証した制約を構成し、46の現実世界のエージェントにまたがる現実的で難しいテストケースを作成する。
- 参考スコア(独自算出の注目度): 71.50171548872596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model agents receive instructions from many sources-system messages, user prompts, tool outputs, other agents, and more-each carrying different levels of trust and authority. When these instructions conflict, agents must reliably follow the highest-privilege instruction to remain safe and effective. The dominant paradigm, instruction hierarchy (IH), assumes a fixed, small set of privilege levels (typically fewer than five) defined by rigid role labels (e.g., system > user). This is inadequate for real-world agentic settings, where conflicts can arise across far more sources and contexts. In this work, we propose Many-Tier Instruction Hierarchy (ManyIH), a paradigm for resolving instruction conflicts among instructions with arbitrarily many privilege levels. We introduce ManyIH-Bench, the first benchmark for ManyIH. ManyIH-Bench requires models to navigate up to 12 levels of conflicting instructions with varying privileges, comprising 853 agentic tasks (427 coding and 426 instruction-following). ManyIH-Bench composes constraints developed by LLMs and verified by humans to create realistic and difficult test cases spanning 46 real-world agents. Our experiments show that even the current frontier models perform poorly (~40% accuracy) when instruction conflict scales. This work underscores the urgent need for methods that explicitly target fine-grained, scalable instruction conflict resolution in agentic settings.
- Abstract(参考訳): 大規模言語モデルエージェントは、多くのソースシステムメッセージ、ユーザープロンプト、ツールアウトプット、その他のエージェントから命令を受け取り、それぞれ異なるレベルの信頼と権限を担っている。
これらの命令が衝突した場合、エージェントは安全で効果的な状態を保つために、最高特権の命令を確実に従わなければならない。
支配的なパラダイムである命令階層(IH)は、厳格なロールラベル(例えば、システム>ユーザ)によって定義された固定された特権レベル(典型的には5未満)を前提としている。
これは現実世界のエージェント設定では不十分で、はるかに多くのソースやコンテキストで衝突が発生する可能性がある。
本研究では、任意に多くの特権レベルを持つ命令間での命令競合を解決するパラダイムであるManyIH(Many-Tier Instruction Hierarchy)を提案する。
manyIH-Bench は manyIH の最初のベンチマークである。
ManyIH-Benchは、最大12レベルのコンフリクト命令を、843のエージェントタスク(427のコーディングと426の命令フォロー)を含む様々な特権でナビゲートする必要がある。
ManyIH-Benchは、LLMによって開発され、人間が検証した制約を構成し、46の現実世界のエージェントにまたがる現実的で難しいテストケースを作成する。
実験の結果,現在のフロンティアモデルでさえ,命令競合の規模が大きくなると性能が低下する(約40%の精度)ことがわかった。
この研究は、エージェント設定できめ細かな、スケーラブルな命令コンフリクト解決を明示的にターゲットとするメソッドの緊急の必要性を浮き彫りにしている。
関連論文リスト
- Hierarchical Alignment: Enforcing Hierarchical Instruction-Following in LLMs through Logical Consistency [21.166652815597782]
本稿では,階層的命令追従のためのニューラルネットワーク階層的アライメント(NSHA)を提案する。
我々は,ルールフォロー,タスク実行,ツール使用,安全性に関するアプローチを評価し,単一ターンと複数ターンのインタラクションについて検討した。
論文 参考訳(メタデータ) (2026-04-10T07:59:11Z) - Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents [4.301199871195023]
大規模言語モデル(LLM)エージェントは、ソフトウェア工学のようなオープンなドメインにますますデプロイされています。
我々は, SWE-bench Verified の未特定変種に対する LLM エージェントの解明と探索能力を評価する。
コード実行から不特定性検出を明示的に分離する不確実性認識型マルチエージェントスキャフォールドを提案する。
論文 参考訳(メタデータ) (2026-03-27T09:56:26Z) - EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits [72.23150343093447]
本稿では,実環境におけるコード編集機能の評価のためのベンチマークであるEDIT-Benchを紹介する。
EDIT-Benchは545の問題、複数の自然言語およびプログラミング言語、および様々な現実世界のユースケースからなる。
モデルの性能は、ユーザ命令のカテゴリによって異なります。
論文 参考訳(メタデータ) (2025-11-06T16:05:28Z) - Reasoning Up the Instruction Ladder for Controllable Language Models [26.068755167791505]
大規模言語モデル(LLM)に基づくシステムは、現実世界の意思決定において高い役割を担っている。
LLMの信頼性と制御性には,命令階層(IH)の強化が重要である。
本研究では,命令階層分解を推論タスクとして再設計する。
論文 参考訳(メタデータ) (2025-10-30T22:13:31Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Can Language Models Follow Multiple Turns of Entangled Instructions? [109.4355301539557]
実世界のシナリオは、時間とともに複数の命令をまたいだ一貫性を必要とすることが多い。
本研究は,多方向命令処理における大規模言語モデルの能力について,系統的研究を行った。
我々は,MultiTurnInstructing with $sim$1.1K High-quality multi-turn conversation through the human-in-the-loop approach。
論文 参考訳(メタデータ) (2025-03-17T14:31:37Z) - Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。
これらの脆弱性の大きな原因の1つは、命令階層の欠如である。
本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文 参考訳(メタデータ) (2024-10-09T12:52:41Z) - The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models [48.455388608863785]
本稿では,複数の命令を逐次的に追従するモデルの性能を評価するためのベンチマークを提案する。
我々のベンチマークは,4つのタスク(テキスト修正,質問応答,数学,セキュリティルール)を用いて,指示に従うことを評価する。
より最近のモデルでは、SIFoタスクにおいて、より古いモデルやより小さなモデルよりも大幅に優れており、ベンチマークの有効性が検証されている。
論文 参考訳(メタデータ) (2024-06-28T15:34:26Z) - Towards Unified Task Embeddings Across Multiple Models: Bridging the Gap for Prompt-Based Large Language Models and Beyond [16.913115978881866]
本稿では,単一ベクトル空間内において,より小さな言語モデルや多様なプロンプトを持つ大規模言語モデルを含む,様々なモデルからのタスク埋め込みである統合タスク埋め込み(FUTE)フレームワークを提案する。
このような一様性は、異なるモデル間の類似性の比較と分析を可能にし、マルチモデルシナリオにおける既存のタスク埋め込みメソッドの範囲と有用性を広げる。
論文 参考訳(メタデータ) (2024-02-22T13:13:31Z) - Room Clearance with Feudal Hierarchical Reinforcement Learning [2.867517731896504]
本稿では,RL研究を軍事分析に有用な方向に進めるためのシナリオ構築ツールとして,新しいシミュレーション環境「it」を紹介した。
そこでは、青いエージェントのチームが建物を通り抜け、すべての部屋が敵のレッドエージェントから取り除かれるようにしなければなりません。
封建的階層型RLのマルチエージェント版を実装し、より上位の指揮官が命令を下級の複数のエージェントに送信するコマンド階層を導入する。
このような方法でタスクを壊すことで、私たちはそれを可能にすることに気付きました。
論文 参考訳(メタデータ) (2021-05-24T15:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。