論文の概要: Hierarchical Alignment: Enforcing Hierarchical Instruction-Following in LLMs through Logical Consistency
- arxiv url: http://arxiv.org/abs/2604.09075v1
- Date: Fri, 10 Apr 2026 07:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.764362
- Title: Hierarchical Alignment: Enforcing Hierarchical Instruction-Following in LLMs through Logical Consistency
- Title(参考訳): 階層的アライメント:論理的一貫性を通したLLMにおける階層的インストラクションの追跡
- Authors: Shu Yang, Zihao Zhou, Di Wang, Wenda Li,
- Abstract要約: 本稿では,階層的命令追従のためのニューラルネットワーク階層的アライメント(NSHA)を提案する。
我々は,ルールフォロー,タスク実行,ツール使用,安全性に関するアプローチを評価し,単一ターンと複数ターンのインタラクションについて検討した。
- 参考スコア(独自算出の注目度): 21.166652815597782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models increasingly operate under multiple instructions from heterogeneous sources with different authority levels, including system policies, user requests, tool outputs, and retrieved context. While prior work on instruction hierarchy highlights the importance of respecting instruction priorities, it mainly focuses on adversarial attacks and overlooks the benign but common instruction conflicts that arise in real-world applications. In such settings, models must not only avoid security violations but also preserve task utility and behavioral consistency when instructions partially or implicitly conflict. We propose Neuro-Symbolic Hierarchical Alignment (NSHA) for hierarchical instruction-following by explicitly modeling and enforcing instruction priorities. At inference time, we introduce solver-guided reasoning that formulates instruction resolution as a constraint satisfaction problem, enabling the model to derive a maximally consistent set of applicable instructions under hierarchical constraints. At training time, NSHA distills solver-based decisions into model parameters using automatically constructed supervision. We evaluate our approach on rule following, task execution, tool use, and safety, covering both single-turn and multi-turn interactions, and show that NSHA significantly improves performance under such conflicts while maintaining competitive utility in reference settings.
- Abstract(参考訳): 大規模言語モデルは,システムポリシやユーザ要求,ツール出力,検索コンテキストなど,さまざまな権限レベルを持つ異種ソースからの複数の命令の下で運用されるようになっている。
命令階層に関する以前の研究は、命令の優先順位を尊重することの重要性を強調していたが、主に敵の攻撃に焦点を当て、現実のアプリケーションで発生する良質だが一般的な命令競合を見落としている。
このような設定では、モデルはセキュリティ違反を避けるだけでなく、命令が部分的にあるいは暗黙的に競合する場合に、タスクユーティリティと行動整合性を保持する必要がある。
本稿では,階層的命令追従のためのニューラルネットワーク階層的アライメント(NSHA)を提案する。
推論時に、制約満足度問題として命令解決を定式化する解法誘導推論を導入し、階層的制約の下で適用可能な命令の最大一貫した集合を導出できるようにする。
トレーニング時にNSHAは、自動的に構築された監督を用いて、解法に基づく決定をモデルパラメータに蒸留する。
我々は,ルール追従,タスク実行,ツール使用,安全に対するアプローチを評価し,単一ターンと複数ターンのインタラクションをカバーし,NSHAが参照設定における競合ユーティリティを維持しながら,このような競合下での性能を著しく向上することを示す。
関連論文リスト
- Many-Tier Instruction Hierarchy in LLM Agents [71.50171548872596]
Many-Tier Instruction Hierarchy (ManyIH)は、任意の特権レベルを持つ命令間での命令競合を解決するためのパラダイムである。
ManyIH-Benchは、最大12レベルのコンフリクト命令をさまざまな特権でナビゲートするモデルを必要とする。
実験の結果,現在のフロンティアモデルでさえ,命令競合の規模が大きくなると性能が低下する(40%の精度)ことがわかった。
論文 参考訳(メタデータ) (2026-04-10T16:00:04Z) - HIPO: Instruction Hierarchy via Constrained Reinforcement Learning [57.40686733111483]
textscHIPOは、制約付きマルコフ決定プロセスとしてHIFを定式化する新しいアライメントフレームワークである。
textscHIPOはシステムプロンプトを単に入力コンテキストから厳密なアルゴリズム境界まで高める。
論文 参考訳(メタデータ) (2026-03-17T06:12:41Z) - On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - Reasoning Up the Instruction Ladder for Controllable Language Models [26.068755167791505]
大規模言語モデル(LLM)に基づくシステムは、現実世界の意思決定において高い役割を担っている。
LLMの信頼性と制御性には,命令階層(IH)の強化が重要である。
本研究では,命令階層分解を推論タスクとして再設計する。
論文 参考訳(メタデータ) (2025-10-30T22:13:31Z) - Control Illusion: The Failure of Instruction Hierarchies in Large Language Models [46.5792253691152]
大規模言語モデル (LLM) は階層的な命令スキームによって徐々に展開される。
制約優先順位付けに基づく体系的評価フレームワークを導入し,LLMがいかに命令階層を強制するかを評価する。
論文 参考訳(メタデータ) (2025-02-21T04:51:37Z) - Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。
これらの脆弱性の大きな原因の1つは、命令階層の欠如である。
本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文 参考訳(メタデータ) (2024-10-09T12:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。