論文の概要: When Roles Fail: Epistemic Constraints on Advocate Role Fidelity in LLM-Based Political Statement Analysis
- arxiv url: http://arxiv.org/abs/2604.27228v1
- Date: Wed, 29 Apr 2026 21:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.819734
- Title: When Roles Fail: Epistemic Constraints on Advocate Role Fidelity in LLM-Based Political Statement Analysis
- Title(参考訳): 役割が失敗したとき--LLMに基づく政治論文分析における役割の忠実性の擁護に関する疫学的制約
- Authors: Juergen Dietrich,
- Abstract要約: 本稿では,モデルが割り当てられた役割を確実に維持するという仮定を,初めて体系的に実証した。
RDI(Role Drift Index)、EDD(Drift Distance)、DDI(Directional Drift Index)、ERS(Entropy-based Role stability)の4つの指標を用いて、60の政治声明における役割忠実度を測定した。
エピステミック・フロア・エフェクト(ファクト・チェックの結果は、正当性が維持できない絶対的な下位境界を作る)とロール・プライア・コンフリクト(学習時の知識が、事実的に曖昧な文に対して役割指示を上回る)の2つの障害モードを特定します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Democratic discourse analysis systems increasingly rely on multi-agent LLM pipelines in which distinct evaluator models are assigned adversarial roles to generate structured, multi-perspective assessments of political statements. A core assumption is that models will reliably maintain their assigned roles. This paper provides the first systematic empirical test of that assumption using the TRUST pipeline. We develop an epistemic stance classifier that identifies advocate roles from reasoning text without relying on surface vocabulary, and measure role fidelity across 60 political statements (30 English, 30 German) using four metrics: Role Drift Index (RDI), Expected Drift Distance (EDD), Directional Drift Index (DDI), and Entropy-based Role Stability (ERS). We identify two failure modes - the Epistemic Floor Effect (fact-check results create an absolute lower bound below which the legitimizing role cannot be maintained) and Role-Prior Conflict (training-time knowledge overrides role instructions for factually unambiguous statements) - as manifestations of a single mechanism: Epistemic Role Override (ERO). Model choice significantly affects role fidelity: Mistral Large outperforms Claude Sonnet by 28pp (67% vs. 39%) and exhibits a qualitatively different failure mode - role abandonment without polarity reversal - compared to Claude's active switch to the opposing stance. Role fidelity is language-robust. Fact-check provider choice is not universally neutral: Perplexity significantly reduces Claude's role fidelity on German statements (Delta = -15pp, p = 0.007) while leaving Mistral unaffected. These findings have direct implications for multi-agent LLM validation: a system validated without role fidelity measurement may systematically misrepresent the epistemic diversity it was designed to provide.
- Abstract(参考訳): 民主的談話分析システムは、政治的言論の構造化された多面的評価を生成するために、異なる評価モデルに敵対的な役割が割り当てられるマルチエージェントLLMパイプラインにますます依存している。
中心的な前提は、モデルは割り当てられた役割を確実に維持する、ということです。
本稿では、TRUSTパイプラインを用いて、その仮定を初めて体系的に実証した。
著者らは,表層語彙を頼らずにテキストの推論から役割を識別し,ロールドリフト指数(RDI),期待ドリフト距離(EDD),ディレクショナルドリフト指数(DDI),エントロピーに基づく役割安定性(ERS)という4つの指標を用いて,60の政治的言明(30,30ドイツ語)にまたがる役割の忠実度を測定する。
エピステミック・フロア・エフェクト(ファクトチェックの結果は、正当性を維持できない絶対的な下位境界を作る)とロール・プライア・コンフリクト(トレーニング時の知識は、事実的に曖昧なステートメントでロール命令をオーバーライドする)という2つの障害モードを、ひとつのメカニズムの顕在化として定義する。
Mistral Large Outperforms Claude Sonnet by 28pp (67% vs. 39%) and exhibits a qualitatively different failure mode - without polarity reversal - compared of Claude's active switch to the other stance。
役割の忠実さは言語に反する。
ファクトチェックプロバイダの選択は、普遍的に中立ではない: パープレクティリティは、ミストラルが影響を受けないままに、クロードの役割の忠実さ(Delta = -15pp, p = 0.007)を著しく減少させる。
これらの知見はマルチエージェントLSM検証に直接的な意味を持つ:ロールフィデリティ測定なしで検証されたシステムは、提供予定のてんかんの多様性を体系的に誤って表現する可能性がある。
関連論文リスト
- Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.15184885636171]
内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。
大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。
本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
論文 参考訳(メタデータ) (2026-02-08T12:28:29Z) - Improving LLM Reasoning through Interpretable Role-Playing Steering [33.25597755294326]
ロールプレイングは大規模言語モデル(LLM)の推論能力を高める効果的な手法として登場した。
Sparse Autoencoder Role-Playing Steering (SRPS) は、ロールプレイング行動に関連する内部モデルの特徴を特定し、操作する新しいフレームワークである。
提案手法は,ロールプレイプロンプトから潜在表現を抽出し,アクティベーションパターンに基づいて最も関連性の高い特徴を選択し,制御可能な強度でモデルの残留ストリームに注入可能なステアリングベクトルを構築する。
論文 参考訳(メタデータ) (2025-06-09T00:31:17Z) - Separator Injection Attack: Uncovering Dialogue Biases in Large Language Models Caused by Role Separators [18.00739443633401]
役割セパレータは、会話で異なる参加者を区別するために使用される。
ロールの誤用はインジェクション攻撃を引き起こす可能性があるため、モデルの振る舞いをユーザの意図と簡単に間違える可能性がある。
我々は,ロールセパレータに基づく新しい正弦波攻撃であるセパレータインジェクションアタック(SIA)を開発した。
論文 参考訳(メタデータ) (2025-04-08T05:20:56Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Role-Play Paradox in Large Language Models: Reasoning Performance Gains and Ethical Dilemmas [7.677029165197536]
大型言語モデル(LLM)におけるロールプレイは、文脈的に関連性があり高品質な応答を生成する能力を高める。
本稿では,モデルの役割を自動選択する手法であるオートチューニングが,有害なアウトプットの生成につながることを実証する。
論文 参考訳(メタデータ) (2024-09-21T02:09:13Z) - When Prompting Fails to Sway: Inertia in Moral and Value Judgments of Large Language Models [4.906478894661688]
大規模言語モデル (LLMs) は非決定論的行動を示し、その出力を所望の方向に向けて操る主要な方法としてプロンプトが登場した。
一般的な戦略の一つは、人間の視点で見られる多様性に似た、より多様で文脈に敏感な反応を誘発するために、特定の「ペルソナ」をモデルに割り当てることである。
我々の実験は、LLMが一貫した値配向を維持することを示した。
特に,特定の道徳的・価値的次元,特に回避と公正さが,さまざまなペルソナ設定にもかかわらず,一方向に明確に歪められたままである,持続的慣性を観察する。
論文 参考訳(メタデータ) (2024-08-16T23:24:10Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。