論文の概要: Control Illusion: The Failure of Instruction Hierarchies in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.15851v1
- Date: Fri, 21 Feb 2025 04:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:37.708765
- Title: Control Illusion: The Failure of Instruction Hierarchies in Large Language Models
- Title(参考訳): 制御イリュージョン:大規模言語モデルにおける命令階層の失敗
- Authors: Yilin Geng, Haonan Li, Honglin Mu, Xudong Han, Timothy Baldwin, Omri Abend, Eduard Hovy, Lea Frermann,
- Abstract要約: 大規模言語モデル (LLM) は階層的な命令スキームによって徐々に展開される。
制約優先順位付けに基づく体系的評価フレームワークを導入し,LLMがいかに命令階層を強制するかを評価する。
- 参考スコア(独自算出の注目度): 42.31134581540184
- License:
- Abstract: Large language models (LLMs) are increasingly deployed with hierarchical instruction schemes, where certain instructions (e.g., system-level directives) are expected to take precedence over others (e.g., user messages). Yet, we lack a systematic understanding of how effectively these hierarchical control mechanisms work. We introduce a systematic evaluation framework based on constraint prioritization to assess how well LLMs enforce instruction hierarchies. Our experiments across six state-of-the-art LLMs reveal that models struggle with consistent instruction prioritization, even for simple formatting conflicts. We find that the widely-adopted system/user prompt separation fails to establish a reliable instruction hierarchy, and models exhibit strong inherent biases toward certain constraint types regardless of their priority designation. While controlled prompt engineering and model fine-tuning show modest improvements, our results indicate that instruction hierarchy enforcement is not robustly realized, calling for deeper architectural innovations beyond surface-level modifications.
- Abstract(参考訳): 大規模言語モデル(LLM)は階層的な命令スキームで展開され、特定の命令(例えば、システムレベルの指示)が他の命令(例えば、ユーザーメッセージ)よりも優先されることが期待される。
しかし、これらの階層的な制御機構がいかに効果的に機能するかという体系的な理解は欠如している。
制約優先順位付けに基づく体系的評価フレームワークを導入し,LLMがいかに命令階層を強制するかを評価する。
我々の実験は、6つの最先端のLCMを対象とし、モデルが単純なフォーマット競合に対しても一貫した命令優先順位付けに苦しむことを示した。
システム/ユーザ間の迅速な分離は,信頼性の高い命令階層の確立に失敗し,モデルが優先的な指定に関わらず,特定の制約タイプに対して強い固有のバイアスを示すことが判明した。
制御されたプロンプトエンジニアリングとモデル微調整は、控えめな改善を示すが、我々の結果は、命令階層の強制は、表面レベルの修正を超えてより深いアーキテクチャ革新を要求する、堅牢に実現されていないことを示唆している。
関連論文リスト
- IHEval: Evaluating Language Models on Following the Instruction Hierarchy [67.33509094445104]
命令階層は、システムメッセージからユーザメッセージ、会話履歴、ツール出力への優先順位を定めている。
その重要性にもかかわらず、このトピックは限定的な注目を集めており、命令階層に従うモデルの能力を評価するための包括的なベンチマークが欠如している。
IHEvalは、異なる優先順位の命令が一致または矛盾するケースをカバーする、新しいベンチマークです。
論文 参考訳(メタデータ) (2025-02-12T19:35:28Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。
これらの脆弱性の大きな原因の1つは、命令階層の欠如である。
本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文 参考訳(メタデータ) (2024-10-09T12:52:41Z) - AD-H: Autonomous Driving with Hierarchical Agents [64.49185157446297]
我々は,ハイレベル命令と低レベル制御信号を中間言語駆動の命令に接続することを提案する。
我々は、AD-Hという階層型マルチエージェント駆動システムを用いて、このアイデアを実装した。
論文 参考訳(メタデータ) (2024-06-05T17:25:46Z) - The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions [21.76697662025996]
LLMは、インジェクション、ジェイルブレイク、その他の攻撃に対して感受性があり、敵は自身の悪意のあるプロンプトでモデルのオリジナルの命令を上書きできる。
本稿では,異なる優先度の命令が矛盾する場合に,モデルがどのように振る舞うかを明確に定義する命令階層を提案する。
この手法をGPT-3.5に適用すると、トレーニング中に見えない攻撃タイプに対してさえ、ロバスト性を大幅に向上すると同時に、標準機能に最小限の劣化を課すことが示される。
論文 参考訳(メタデータ) (2024-04-19T22:55:23Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Learning Higher-Order Programs without Meta-Interpretive Learning [2.0518509649405106]
実験結果から,高次定義による多元的学習失敗パラダイムの拡張は,既存システムに必要な人的指導を伴わずに,学習性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2021-12-29T15:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。