論文の概要: A Sober Look at Agentic Misalignment in Automated Workflows
- arxiv url: http://arxiv.org/abs/2605.24197v1
- Date: Fri, 22 May 2026 20:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.735021
- Title: A Sober Look at Agentic Misalignment in Automated Workflows
- Title(参考訳): 自動化ワークフローにおけるエージェントの相違
- Authors: Wenqian Ye, Bo Yuan, Zhichao Xu, Yijun Tian, Yawei Wang, Henry Kautz, Aidong Zhang,
- Abstract要約: マルチエージェントシステム(MAS)における創発的ミスアライメントのクラスについて検討する。
エージェントエビデンス属性(AEA)は、文脈特異的な証拠を用いてエージェント後部を改善する新しいアライメントパラダイムである。
- 参考スコア(独自算出の注目度): 39.62671225833463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a class of emergent misalignment in multi-agent systems (MAS), with a focus on automated workflows, which we refer to agentic misalignment. Although these systems can solve complex tasks, they often fail because agents act according to implicit proxy utilities that do not align with the intended human goals. We formally define these behaviors and analyze them within a Bayesian framework, showing that generic utilities naturally lead to posterior collapse of agents in automated workflows. To address this issue, we propose Agentic Evidence Attribution (AEA), a novel alignment paradigm that improves agent posteriors using context-specific evidence. AEA reasons over agent actions and provides structured evidence to correct misaligned behavior during collaboration. To better understand the role of evidence, we study two instantiations of AEA: self-reflection (internal evidence from the model) and weak-to-strong generalization (external evidence on the agentic trajectory). We show that a small evidence model effectively aligns the MAS by providing orthogonal failure attribution. Our results clarify the sources of agentic misalignment in automated workflows and show that evidence-based alignment can effectively improve agent collaboration and leads to reliable multi-agent systems built on automated workflows.
- Abstract(参考訳): マルチエージェントシステム(MAS)における創発的ミスアライメントのクラスについて検討し,エージェント的ミスアライメント(エージェント的ミスアライメント)を指す自動ワークフローに着目した。
これらのシステムは複雑なタスクを解くことができるが、エージェントが意図された人間の目標と一致しない暗黙のプロキシユーティリティに従って行動するため、しばしば失敗する。
我々はこれらの振る舞いを公式に定義し、ベイズフレームワーク内で解析し、汎用ユーティリティが自動化ワークフローにおけるエージェントの後方崩壊を自然に引き起こすことを示す。
この問題に対処するために,エージェント・エビデンス・アトリビューション(AEA)を提案する。
AEAはエージェントアクションよりも理由があり、コラボレーション中に不整合行動を修正するための構造化された証拠を提供する。
証拠の役割をよりよく理解するために,自己回帰(モデルからの内的証拠)と弱強汎化(エージェント軌道の外部的証拠)という,AEAの2つのインスタンス化について検討した。
直交的失敗帰属を提供することにより,MASを効果的に整合させる小さなエビデンスモデルを示す。
自動ワークフローにおけるエージェントのミスアライメントの源泉を明らかにするとともに,エビデンスに基づくアライメントがエージェントコラボレーションを効果的に改善し,自動化ワークフロー上に構築された信頼性の高いマルチエージェントシステムを実現することを示す。
関連論文リスト
- Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems [65.90791804095561]
マルチエージェントシステムは、特殊エージェント間の構造化された協調を通じてこの問題に対処するが、より厳密な調整は、あまり検討されていないリスクを増幅する。
既存の調査では、個々のエージェント能力、マルチエージェントのコラボレーション、エージェントの自己進化を別々にカバーしている。
この調査は4つの因果関係のあるステージを中心にまとめられた統一されたレビューを提供する。これはLIFEの進展(Lay the capabilities foundation)、協力によるエージェントの統合、帰属による障害の発見、自律的な自己改善によるEvolveである。
論文 参考訳(メタデータ) (2026-05-14T14:36:13Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents [2.8292841621378844]
この設定は、協調的で分散化された証明探索と理論構築を探索する。
エージェントは、インタラクティブな証明システムと直接対話する。
承認されたすべての証明は、基礎となる証明アシスタントによってチェックされ、検証される。
論文 参考訳(メタデータ) (2026-03-06T07:34:07Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - InfiAgent: Self-Evolving Pyramid Agent Framework for Infinite Scenarios [28.65914611521654]
InfiAgentはピラミッドのようなDAGベースのMulti-Agent Frameworkで、textbfinfiniteのシナリオに適用できる。
InfiAgentはADAS(類似の自動生成エージェントフレームワーク)と比較して9.9%高いパフォーマンスを実現している
論文 参考訳(メタデータ) (2025-09-26T15:44:09Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。