論文の概要: Can AI Agents Agree?
- arxiv url: http://arxiv.org/abs/2603.01213v1
- Date: Sun, 01 Mar 2026 18:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.570073
- Title: Can AI Agents Agree?
- Title(参考訳): AIエージェントは合意できるのか?
- Authors: Frédéric Berdoz, Leonardo Rugli, Roger Wattenhofer,
- Abstract要約: 大規模言語モデルは、協調エージェントとしてますます展開されているが、敵のコンセンサス設定におけるそれらの振る舞いは研究されていない。
シンクロ・オール・ツー・オール・シミュレーションを用いて,ビザンチンのコンセンサスゲーム上でのLSMに基づくエージェントをスカラー値で評価する。
グループのサイズが大きくなるにつれて、良質な設定や劣化があっても、有効な合意が信頼できないことが分かりました。
- 参考スコア(独自算出の注目度): 32.75269650141292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly deployed as cooperating agents, yet their behavior in adversarial consensus settings has not been systematically studied. We evaluate LLM-based agents on a Byzantine consensus game over scalar values using a synchronous all-to-all simulation. We test consensus in a no-stake setting where agents have no preferences over the final value, so evaluation focuses on agreement rather than value optimality. Across hundreds of simulations spanning model sizes, group sizes, and Byzantine fractions, we find that valid agreement is not reliable even in benign settings and degrades as group size grows. Introducing a small number of Byzantine agents further reduces success. Failures are dominated by loss of liveness, such as timeouts and stalled convergence, rather than subtle value corruption. Overall, the results suggest that reliable agreement is not yet a dependable emergent capability of current LLM-agent groups even in no-stake settings, raising caution for deployments that rely on robust coordination.
- Abstract(参考訳): 大規模言語モデルは協調エージェントとしてますます展開されているが、敵のコンセンサス設定におけるそれらの振る舞いは体系的に研究されていない。
シンクロ・オール・ツー・オール・シミュレーションを用いて,ビザンチンのコンセンサスゲーム上でのLSMに基づくエージェントをスカラー値で評価する。
我々は、エージェントが最終値よりも優先権を持たないノンテイク環境でコンセンサスをテストするので、評価は価値の最適性よりも合意にフォーカスする。
モデルサイズ, グループサイズ, ビザンチン数にまたがる数百のシミュレーションでは, グループサイズが大きくなるにつれて, 良質な設定や劣化があっても, 有効な合意が信頼できないことがわかった。
少数のビザンツ人エージェントの導入はさらに成功を減少させる。
失敗は、微妙な価値の腐敗ではなく、タイムアウトや行き詰まりのような生活の喪失によって支配される。
全体としては、信頼性の高い合意は、現状のLLMエージェントグループにとって、信頼できない設定であっても、信頼できない緊急能力ではないことが示唆され、ロバストな調整に依存するデプロイメントに注意が向けられる。
関連論文リスト
- From Task Solving to Robust Real-World Adaptation in LLM Agents [17.122224644097304]
大規模言語モデルは、拡張された地平線上での計画、呼び出し、アクションを行う特別なエージェントとして、ますます多くデプロイされている。
グリッド型ゲームにおけるエージェントLLMを、単純なゴールだが長距離実行でベンチマークする。
名目上のタスク解決と,デプロイメントのような堅牢性の間には,大きなギャップがあります。
論文 参考訳(メタデータ) (2026-02-02T20:10:40Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Stochasticity in Agentic Evaluations: Quantifying Inconsistency with Intraclass Correlation [0.7418138958218443]
クラス内相関係数(ICC)は、測定科学から分散を特徴づける指標である。
ICCは観測されたばらつきを、問合せ間分散(タスク困難)と問合せ内分散(エージェント不整合)に分解する
我々は、ICCが構造化タスクのn=8-16と複雑な推論のn>=32で収束し、実践者がエビデンスベースの再サンプリング予算を設定することを実証した。
論文 参考訳(メタデータ) (2025-12-07T07:58:13Z) - Harnessing Consistency for Robust Test-Time LLM Ensemble [88.55393815158608]
CoREは、堅牢なLLMアンサンブルにモデル一貫性を利用するプラグイン・アンド・プレイ技術である。
トークンレベルの一貫性は、ダウンウェイト不確実なトークンにローパスフィルタを適用することで、きめ細かい不一致を捕捉する。
モデルレベルの一貫性は、自己自信の高いモデル出力を促進することで、グローバルな合意をモデル化する。
論文 参考訳(メタデータ) (2025-10-12T04:18:45Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats [22.843390303635655]
大規模言語モデルが意図的に回避しようとする場合でも,安全対策が有効かどうかを検討する。
マイクロプロトコールの選択には、適応マクロプロトコールを使用する2段階のデプロイメントフレームワークを使用する。
有効なレベルでは、適応的デプロイメント戦略は、非適応的ベースラインに比べて、バックドアの数を80%削減します。
論文 参考訳(メタデータ) (2024-11-26T18:58:20Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Byzantine-Resilient Decentralized Multi-Armed Bandits [23.34196562182705]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。
このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文 参考訳(メタデータ) (2023-10-11T09:09:50Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。