論文の概要: Reasoning Up the Instruction Ladder for Controllable Language Models
- arxiv url: http://arxiv.org/abs/2511.04694v2
- Date: Wed, 12 Nov 2025 01:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:30.989028
- Title: Reasoning Up the Instruction Ladder for Controllable Language Models
- Title(参考訳): 制御可能な言語モデルのための命令ラダーの推論
- Authors: Zishuo Zheng, Vidhisha Balachandran, Chan Young Park, Faeze Brahman, Sachin Kumar,
- Abstract要約: 大規模言語モデル(LLM)に基づくシステムは、現実世界の意思決定において高い役割を担っている。
LLMの信頼性と制御性には,命令階層(IH)の強化が重要である。
本研究では,命令階層分解を推論タスクとして再設計する。
- 参考スコア(独自算出の注目度): 26.068755167791505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language model (LLM) based systems take on high-stakes roles in real-world decision-making, they must reconcile competing instructions from multiple sources (e.g., model developers, users, and tools) within a single prompt context. Thus, enforcing an instruction hierarchy (IH) in LLMs, where higher-level directives override lower-priority requests, is critical for the reliability and controllability of LLMs. In this work, we reframe instruction hierarchy resolution as a reasoning task. Specifically, the model must first "think" about the relationship between a given user prompt and higher-priority (system) instructions before generating a response. To enable this capability via training, we construct VerIH, an instruction hierarchy dataset of constraint-following tasks with verifiable answers. This dataset comprises both aligned and conflicting system-user instructions. We show that lightweight reinforcement learning with VerIH effectively transfers general reasoning capabilities of models to instruction prioritization. Our finetuned models achieve consistent improvements on instruction following and instruction hierarchy benchmarks. This reasoning ability also generalizes to safety-critical settings beyond the training distribution. By treating safety issues as resolving conflicts between adversarial user inputs and predefined higher-priority policies, our trained model enhances robustness against jailbreak and prompt injection attacks. These results demonstrate that reasoning over instruction hierarchies provides a practical path to reliable LLMs, where updates to system prompts yield controllable and robust changes in model behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくシステムは、現実世界の意思決定において高い役割を担っているため、複数のソース(例えば、モデル開発者、ユーザ、ツール)からの競合する命令を、単一のプロンプトコンテキスト内で調整する必要がある。
したがって、低優先度要求を上位ディレクティブがオーバーライドするLLMにおける命令階層(IH)の強制は、LLMの信頼性と制御性にとって重要である。
本研究では,命令階層分解を推論タスクとして再設計する。
具体的には、モデルが最初に、応答を生成する前に、与えられたユーザープロンプトと高優先度(システム)命令との関係について"考える"必要がある。
トレーニングによってこの機能を実現するために,制約追従タスクの命令階層データセットであるVerIHを構築した。
このデータセットは、整列と矛盾するシステムユーザ命令の両方から構成される。
VerIHを用いた軽量強化学習は、モデルの一般的な推論能力を命令の優先順位付けに効果的に伝達することを示す。
我々の微調整モデルでは命令追従と命令階層のベンチマークにおいて一貫した改善が達成されている。
この推論能力は、トレーニングディストリビューション以外の安全クリティカルな設定にも一般化される。
安全問題を、敵のユーザ入力と事前定義された高優先度ポリシーの対立を解決するものとして扱うことにより、トレーニングされたモデルは、ジェイルブレイクに対する堅牢性を高め、インジェクション攻撃を促す。
これらの結果から,命令階層に対する推論は信頼性の高いLLMへの実践的な経路となり,システムの更新によってモデル動作の制御可能かつ堅牢な変化が引き起こされることが示された。
関連論文リスト
- Control Illusion: The Failure of Instruction Hierarchies in Large Language Models [46.5792253691152]
大規模言語モデル (LLM) は階層的な命令スキームによって徐々に展開される。
制約優先順位付けに基づく体系的評価フレームワークを導入し,LLMがいかに命令階層を強制するかを評価する。
論文 参考訳(メタデータ) (2025-02-21T04:51:37Z) - Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。
これらの脆弱性の大きな原因の1つは、命令階層の欠如である。
本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文 参考訳(メタデータ) (2024-10-09T12:52:41Z) - RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。