論文の概要: Who is In Charge? Dissecting Role Conflicts in Instruction Following
- arxiv url: http://arxiv.org/abs/2510.01228v1
- Date: Tue, 23 Sep 2025 03:24:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.728244
- Title: Who is In Charge? Dissecting Role Conflicts in Instruction Following
- Title(参考訳): 責任者は誰だ? 教職継承をめぐる紛争を解き明かす
- Authors: Siqi Zeng,
- Abstract要約: 線形探索は、コンフリクト決定信号が早期に符号化され、システムユーザとソーシャルコンフリクトが別々のサブスペースを形成することを示している。
直接ロジット属性は、システムユーザの場合においてより強力な内部衝突検出を示すが、一貫した解決は社会的な手がかりに限られる。
- 参考スコア(独自算出の注目度): 2.0184809135817177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models should follow hierarchical instructions where system prompts override user inputs, yet recent work shows they often ignore this rule while strongly obeying social cues such as authority or consensus. We extend these behavioral findings with mechanistic interpretations on a large-scale dataset. Linear probing shows conflict-decision signals are encoded early, with system-user and social conflicts forming distinct subspaces. Direct Logit Attribution reveals stronger internal conflict detection in system-user cases but consistent resolution only for social cues. Steering experiments show that, despite using social cues, the vectors surprisingly amplify instruction following in a role-agnostic way. Together, these results explain fragile system obedience and underscore the need for lightweight hierarchy-sensitive alignment methods.
- Abstract(参考訳): 大規模言語モデルは、システムがユーザー入力をオーバーライドするよう促す階層的な指示に従うべきであるが、最近の研究は、権威やコンセンサスのような社会的方法に強く従いながら、しばしばこの規則を無視していることを示している。
大規模データセット上での機械的解釈により,これらの挙動を拡張した。
線形探索は、コンフリクト決定信号が早期に符号化され、システムユーザとソーシャルコンフリクトが別々のサブスペースを形成することを示している。
ダイレクトロジット属性は、システムユーザの場合においてより強力な内部コンフリクト検出を示すが、一貫した解決は社会的な手がかりに限られる。
ステアリング実験は、ソーシャルな手がかりを使っても、ベクトルは驚くほど、役割に依存しない方法で指示を増幅することを示している。
これらの結果は、脆弱なシステムの従順性を説明し、軽量な階層性アライメント手法の必要性を浮き彫りにする。
関連論文リスト
- Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Position is Power: System Prompts as a Mechanism of Bias in Large Language Models (LLMs) [7.71667852309443]
大規模言語モデル(LLM)におけるシステムプロンプトは、モデル動作を導く事前定義された指示である。
LLMのデプロイでは、コンテキスト間の一貫性のあるレスポンスを保証するために、ますます使用されている。
システムプロンプトがより複雑になるにつれて、直接的または間接的に、副作用の未報告を導入することができる。
論文 参考訳(メタデータ) (2025-05-27T12:19:08Z) - Control Illusion: The Failure of Instruction Hierarchies in Large Language Models [46.5792253691152]
大規模言語モデル (LLM) は階層的な命令スキームによって徐々に展開される。
制約優先順位付けに基づく体系的評価フレームワークを導入し,LLMがいかに命令階層を強制するかを評価する。
論文 参考訳(メタデータ) (2025-02-21T04:51:37Z) - How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - Hyper Meta-Path Contrastive Learning for Multi-Behavior Recommendation [61.114580368455236]
マルチビヘイビア情報によるユーザ購入予測は、現在のレコメンデーションシステムでは難しい問題である。
本稿では,ハイパーメタパスやハイパーメタグラフを構築するためのハイパーメタパスの概念を提案する。
最近のグラフコントラスト学習の成功により、異なる振る舞い間の依存関係を理解するために固定されたスキームを割り当てるのではなく、ユーザ行動パターンの埋め込みを適応的に学習する。
論文 参考訳(メタデータ) (2021-09-07T04:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。