論文の概要: Who is In Charge? Dissecting Role Conflicts in Instruction Following
- arxiv url: http://arxiv.org/abs/2510.01228v1
- Date: Tue, 23 Sep 2025 03:24:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.728244
- Title: Who is In Charge? Dissecting Role Conflicts in Instruction Following
- Title(参考訳): 責任者は誰だ? 教職継承をめぐる紛争を解き明かす
- Authors: Siqi Zeng,
- Abstract要約: 線形探索は、コンフリクト決定信号が早期に符号化され、システムユーザとソーシャルコンフリクトが別々のサブスペースを形成することを示している。
直接ロジット属性は、システムユーザの場合においてより強力な内部衝突検出を示すが、一貫した解決は社会的な手がかりに限られる。
- 参考スコア(独自算出の注目度): 2.0184809135817177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models should follow hierarchical instructions where system prompts override user inputs, yet recent work shows they often ignore this rule while strongly obeying social cues such as authority or consensus. We extend these behavioral findings with mechanistic interpretations on a large-scale dataset. Linear probing shows conflict-decision signals are encoded early, with system-user and social conflicts forming distinct subspaces. Direct Logit Attribution reveals stronger internal conflict detection in system-user cases but consistent resolution only for social cues. Steering experiments show that, despite using social cues, the vectors surprisingly amplify instruction following in a role-agnostic way. Together, these results explain fragile system obedience and underscore the need for lightweight hierarchy-sensitive alignment methods.
- Abstract(参考訳): 大規模言語モデルは、システムがユーザー入力をオーバーライドするよう促す階層的な指示に従うべきであるが、最近の研究は、権威やコンセンサスのような社会的方法に強く従いながら、しばしばこの規則を無視していることを示している。
大規模データセット上での機械的解釈により,これらの挙動を拡張した。
線形探索は、コンフリクト決定信号が早期に符号化され、システムユーザとソーシャルコンフリクトが別々のサブスペースを形成することを示している。
ダイレクトロジット属性は、システムユーザの場合においてより強力な内部コンフリクト検出を示すが、一貫した解決は社会的な手がかりに限られる。
ステアリング実験は、ソーシャルな手がかりを使っても、ベクトルは驚くほど、役割に依存しない方法で指示を増幅することを示している。
これらの結果は、脆弱なシステムの従順性を説明し、軽量な階層性アライメント手法の必要性を浮き彫りにする。
関連論文リスト
- Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning [78.86309644343295]
長い連鎖推論におけるマルチモーダルな大言語モデル(MLLM)は、異なる知識源が矛盾する信号を提供するときにしばしば失敗する。
我々は、これらの失敗を知識の衝突という統一概念の下で形式化し、入力レベルの客観的衝突とプロセスレベルの効果的な衝突を区別する。
本研究は,知識衝突下でのマルチモーダル推論のメカニズムを考察し,長CoT障害の診断と制御を可能にする。
論文 参考訳(メタデータ) (2026-02-16T07:10:44Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Logic-Guided Multistage Inference for Explainable Multidefendant Judgment Prediction [7.016142593912547]
我々は,マルチディペンダントケースにおけるインテリジェントなアシストを強化するために,事前訓練されたトランスフォーマーエンコーダフレームワークにセンテンシングロジックを導入する。
このフレームワーク内では、オブジェクト指向マスキング機構が役割を明確にし、比較データ構築戦略により、計算可能性の区別に対するモデルの感度が向上する。
マスク付き多段階推論(MMSI)フレームワークは,意図的外傷症例に対するカスタムIMLJPデータセットを用いて評価し,大幅な精度向上を実現している。
論文 参考訳(メタデータ) (2026-01-19T03:20:36Z) - That's Deprecated! Understanding, Detecting, and Steering Knowledge Conflicts in Language Models for Code Generation [55.78914774437411]
大規模言語モデル(LLM)は、パラメトリック知識とプロンプトに含まれる矛盾する情報との相違に直面して振る舞う。
このような対立を構築・解釈するためのドメインに依存しないフレームワークを提案する。
本研究では, アクティベーションレベルのステアリングが, ランダムベースライン上でのステアリング成功率を最大12.6%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-10-21T22:27:56Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Position is Power: System Prompts as a Mechanism of Bias in Large Language Models (LLMs) [7.71667852309443]
大規模言語モデル(LLM)におけるシステムプロンプトは、モデル動作を導く事前定義された指示である。
LLMのデプロイでは、コンテキスト間の一貫性のあるレスポンスを保証するために、ますます使用されている。
システムプロンプトがより複雑になるにつれて、直接的または間接的に、副作用の未報告を導入することができる。
論文 参考訳(メタデータ) (2025-05-27T12:19:08Z) - Perception-Driven Bias Detection in Machine Learning via Crowdsourced Visual Judgment [0.0]
本稿では,クラウドソースによる人的判断を活用するバイアス検出のための,新しい認知駆動型フレームワークを提案する。
本稿では,reCAPTCHAなどのクラウド・パワーシステムに触発されて,数値データの取り除かれた可視化を表示する軽量なWebプラットフォームを提案する。
ユーザの視覚的知覚は、レイアウト、間隔、質問のフレーズによって、潜在的な相違を示唆することができる。
論文 参考訳(メタデータ) (2025-05-21T17:09:18Z) - Control Illusion: The Failure of Instruction Hierarchies in Large Language Models [46.5792253691152]
大規模言語モデル (LLM) は階層的な命令スキームによって徐々に展開される。
制約優先順位付けに基づく体系的評価フレームワークを導入し,LLMがいかに命令階層を強制するかを評価する。
論文 参考訳(メタデータ) (2025-02-21T04:51:37Z) - How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - Hyper Meta-Path Contrastive Learning for Multi-Behavior Recommendation [61.114580368455236]
マルチビヘイビア情報によるユーザ購入予測は、現在のレコメンデーションシステムでは難しい問題である。
本稿では,ハイパーメタパスやハイパーメタグラフを構築するためのハイパーメタパスの概念を提案する。
最近のグラフコントラスト学習の成功により、異なる振る舞い間の依存関係を理解するために固定されたスキームを割り当てるのではなく、ユーザ行動パターンの埋め込みを適応的に学習する。
論文 参考訳(メタデータ) (2021-09-07T04:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。