論文の概要: When Agents Disagree With Themselves: Measuring Behavioral Consistency in LLM-Based Agents
- arxiv url: http://arxiv.org/abs/2602.11619v1
- Date: Thu, 12 Feb 2026 06:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.665088
- Title: When Agents Disagree With Themselves: Measuring Behavioral Consistency in LLM-Based Agents
- Title(参考訳): エージェントがテーマで診断する時--LDM系エージェントの行動整合性の測定-
- Authors: Aman Mehta,
- Abstract要約: ReActスタイルのエージェントは、同じ入力でも平均10回の実行毎に2.0--4.2の異なるアクションシーケンスを生成する。
一貫性のある動作を持つタスクは80-92%の精度を達成するが、一貫性のないタスクは25-60%しか達成しない。
この結果から,実行中の動作の整合性を監視することにより,早期のエラー検出とエージェント信頼性の向上が期待できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Run the same LLM agent on the same task twice: do you get the same behavior? We find the answer is often no. In a study of 3,000 agent runs across three models (Llama 3.1 70B, GPT-4o, and Claude Sonnet 4.5) on HotpotQA, we observe that ReAct-style agents produce 2.0--4.2 distinct action sequences per 10 runs on average, even with identical inputs. More importantly, this variance predicts failure: tasks with consistent behavior ($\leq$2 unique paths) achieve 80--92% accuracy, while highly inconsistent tasks ($\geq$6 unique paths) achieve only 25--60%, a 32--55 percentage point gap depending on model. We trace variance to early decisions: 69% of divergence occurs at step 2, the first search query. Our results suggest that monitoring behavioral consistency during execution could enable early error detection and improve agent reliability.
- Abstract(参考訳): 同じタスクで同じLLMエージェントを2回実行します。
答えはたいていノーである。
ホットポットQA上の3つのモデル(Llama 3.1 70B, GPT-4o, Claude Sonnet 4.5)で3000のエージェントが動作し、ReActスタイルのエージェントが平均2~4.2のアクションシーケンスを生成し、同じ入力でも平均2~4.2のアクションシーケンスを生成する。さらに、この分散は失敗を予測している。一貫性のある動作(\leq$2のユニークなパス)を持つタスクは80~92%、一貫性のないタスク(\geq$6のパス)は25~60%しか得られない。
分岐の69%は、最初の検索クエリであるステップ2で発生します。
この結果から,実行中の動作の整合性を監視することにより,早期のエラー検出とエージェント信頼性の向上が期待できることがわかった。
関連論文リスト
- Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance [4.424336158797069]
この記事では、AIを利用した一般的な5つのコーディングアシスタント(OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code)を比較します。
デビンは受容率において唯一一貫した正の傾向を示す(32週間で週0.77%以上)。
分析の結果,PRタスクタイプが受入率に影響を及ぼす主要な要因であることが示唆された。
論文 参考訳(メタデータ) (2026-02-09T17:14:46Z) - On Randomness in Agentic Evals [6.177270420667714]
エージェントシステムは、エージェントがタスクを解決するために環境と対話するベンチマークで評価される。
ほとんどの論文では、タスク毎にひとつの実行から計算されたpass@1スコアが報告されている。
単一ランパス@1推定値は、どのランが選択されたかによって2.2から6.0ポイント異なる。
論文 参考訳(メタデータ) (2026-02-06T19:49:13Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Multi-Agent Code Verification with Compound Vulnerability Detection [0.0]
既存のツールはバグの65%しかキャッチできず、35%が偽陽性である。
CodeX-Verifyは4つの特殊なエージェントを使って異なるタイプのバグを検出するマルチエージェントシステムです。
論文 参考訳(メタデータ) (2025-11-20T03:40:27Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。