論文の概要: Helpful Agent Meets Deceptive Judge: Understanding Vulnerabilities in Agentic Workflows
- arxiv url: http://arxiv.org/abs/2506.03332v1
- Date: Tue, 03 Jun 2025 19:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.022784
- Title: Helpful Agent Meets Deceptive Judge: Understanding Vulnerabilities in Agentic Workflows
- Title(参考訳): Helpful Agent: エージェントワークフローにおける脆弱性の理解
- Authors: Yifei Ming, Zixuan Ke, Xuan-Phi Nguyen, Jiayu Wang, Shafiq Joty,
- Abstract要約: 本研究は, 詐欺的あるいは誤解を招くフィードバックの下で, エージェント的堅牢性の体系的解析を行う。
我々は、最強のエージェントでさえ説得力に弱いが欠陥のある批判に弱いことを明らかにした。
本研究は,フィードバックに基づく堅牢性の基本的脆弱性を強調し,より堅牢なエージェントシステム構築のためのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 41.97051158610974
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Agentic workflows -- where multiple large language model (LLM) instances interact to solve tasks -- are increasingly built on feedback mechanisms, where one model evaluates and critiques another. Despite the promise of feedback-driven improvement, the stability of agentic workflows rests on the reliability of the judge. However, judges may hallucinate information, exhibit bias, or act adversarially -- introducing critical vulnerabilities into the workflow. In this work, we present a systematic analysis of agentic workflows under deceptive or misleading feedback. We introduce a two-dimensional framework for analyzing judge behavior, along axes of intent (from constructive to malicious) and knowledge (from parametric-only to retrieval-augmented systems). Using this taxonomy, we construct a suite of judge behaviors and develop WAFER-QA, a new benchmark with critiques grounded in retrieved web evidence to evaluate robustness of agentic workflows against factually supported adversarial feedback. We reveal that even strongest agents are vulnerable to persuasive yet flawed critiques -- often switching correct answers after a single round of misleading feedback. Taking a step further, we study how model predictions evolve over multiple rounds of interaction, revealing distinct behavioral patterns between reasoning and non-reasoning models. Our findings highlight fundamental vulnerabilities in feedback-based workflows and offer guidance for building more robust agentic systems.
- Abstract(参考訳): 複数の大規模言語モデル(LLM)インスタンスがタスク解決のために相互作用するエージェントワークフローは、フィードバックメカニズムに基づいて構築され、あるモデルが別のモデルを評価し、批判するようになっている。
フィードバック駆動改善の約束にもかかわらず、エージェントワークフローの安定性は裁判官の信頼性に依存している。
しかし、裁判官は情報を幻覚させ、偏見を示し、反対に行動し、ワークフローに重大な脆弱性をもたらす可能性がある。
本研究は, 誤認的あるいは誤解を招くフィードバックの下で, エージェントワークフローの系統的解析を行う。
本稿では,意図の軸(構成から悪意まで)と知識(パラメトリックのみから検索拡張システムまで)に沿って,判断行動を分析するための2次元フレームワークを提案する。
この分類法を用いて,判断行動のスイートを構築し,Webエビデンスを根拠とした新たな評価指標であるWAFER-QAを開発し,現実的に支援された敵のフィードバックに対するエージェントワークフローの堅牢性を評価する。
我々は、最強のエージェントでさえ、説得力のあるが欠陥のある批判に弱いことを明らかにした。
さらに、モデル予測が複数ラウンドの相互作用を通してどのように進化するかを考察し、推論と非推論モデルの間に異なる行動パターンを明らかにする。
我々の研究はフィードバックベースのワークフローの基本的脆弱性を強調し、より堅牢なエージェントシステムを構築するためのガイダンスを提供する。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Enhancing Trust in Autonomous Agents: An Architecture for Accountability and Explainability through Blockchain and Large Language Models [0.3495246564946556]
この研究は、ROSベースの移動ロボットに実装された説明可能性と説明可能性のアーキテクチャを示す。
提案されたソリューションは2つの主要コンポーネントで構成されている。まず、説明責任を提供するブラックボックスのような要素で、ブロックチェーン技術によって達成されるアンチタンパ特性を特徴とする。
第二に、前述のブラックボックスに含まれるデータに対して、Large Language Models(LLM)の機能を利用することで、自然言語の説明を生成するコンポーネントである。
論文 参考訳(メタデータ) (2024-03-14T16:57:18Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Robustness Testing for Multi-Agent Reinforcement Learning: State
Perturbations on Critical Agents [2.5204420653245245]
MARL(Multi-Agent Reinforcement Learning)は、スマート交通や無人航空機など、多くの分野に広く応用されている。
本研究は,MARLのための新しいロバストネステストフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-09T02:26:28Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。