論文の概要: Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment
- arxiv url: http://arxiv.org/abs/2604.19548v1
- Date: Tue, 21 Apr 2026 15:05:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.832019
- Title: Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment
- Title(参考訳): 対話的アライメントによるエージェントのアクター・オブザーバ非対称性のモデル化
- Authors: Bobo Li, Rui Wu, Zibo Ji, Meishan Zhang, Hao Fei, Min Zhang, Mong-Li Lee, Wynne Hsu,
- Abstract要約: セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
- 参考スコア(独自算出の注目度): 59.536125286960186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model agents have rapidly evolved from static text generators into dynamic systems capable of executing complex autonomous workflows. To enhance reliability, multi-agent frameworks assigning specialized roles are increasingly adopted to enable self-reflection and mutual auditing. While such role-playing effectively leverages domain expert knowledge, we find it simultaneously induces a human-like cognitive bias known as Actor-Observer Asymmetry (AOA). Specifically, an agent acting as an actor (during self-reflection) tends to attribute failures to external factors, whereas an observer (during mutual auditing) attributes the same errors to internal faults. We quantify this using our new Ambiguous Failure Benchmark, which reveals that simply swapping perspectives triggers the AOA effect in over 20% of cases for most models. To tame this bias, we introduce ReTAS (Reasoning via Thesis-Antithesis-Synthesis), a model trained through dialectical alignment to enforce perspective-invariant reasoning. By integrating dialectical chain-of-thought with Group Relative Policy Optimization, ReTAS guides agents to synthesize conflicting viewpoints into an objective consensus. Experiments demonstrate that ReTAS effectively mitigates attribution inconsistency and significantly improves fault resolution rates in ambiguous scenarios.
- Abstract(参考訳): 大規模言語モデルエージェントは、静的テキストジェネレータから、複雑な自律ワークフローの実行が可能な動的システムへと急速に進化してきた。
信頼性を高めるために、セルフリフレクションと相互監査を可能にするために、特別な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
このようなロールプレイングはドメインエキスパートの知識を効果的に活用するが、アクター・オブザーバ・ア対称性(AOA)として知られる人間のような認知バイアスを同時に誘発する。
具体的には、アクターとして行動するエージェント(自己回帰中)は、障害を外部要因に起因する傾向があるが、観察者(相互監査中)は同じエラーを内部欠陥に起因する。
これは、パースペクティブをスワップするだけで、ほとんどのモデルで20%以上のケースでAOA効果が引き起こされることを示している。
このバイアスを緩和するために、視点不変推論を強制するために、弁証的アライメントを通して訓練されたモデルであるReTAS(Reasoning via Thesis-Antithesis-Synthesis)を導入する。
弁証的連鎖とグループ相対的政策最適化を統合することで、ReTASは、対立する視点を客観的なコンセンサスに合成するエージェントを誘導する。
実験により、ReTASは帰属不整合を効果的に軽減し、曖昧なシナリオにおける障害解決率を大幅に改善することが示された。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (2026-03-17T10:03:30Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - Helpful Agent Meets Deceptive Judge: Understanding Vulnerabilities in Agentic Workflows [41.97051158610974]
本研究は, 詐欺的あるいは誤解を招くフィードバックの下で, エージェント的堅牢性の体系的解析を行う。
我々は、最強のエージェントでさえ説得力に弱いが欠陥のある批判に弱いことを明らかにした。
本研究は,フィードバックに基づく堅牢性の基本的脆弱性を強調し,より堅牢なエージェントシステム構築のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-06-03T19:26:23Z) - AgentRefine: Enhancing Agent Generalization through Refinement Tuning [28.24897427451803]
LLM(Large Language Model)ベースのエージェントは、人間のような複雑なタスクを実行する能力を示した。
オープンソースLLMとGPTシリーズのような商用モデルの間にはまだ大きなギャップがある。
本稿では,命令チューニングによるLLMのエージェント一般化機能の改善に焦点をあてる。
論文 参考訳(メタデータ) (2025-01-03T08:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。