論文の概要: Do Multi-Agents Dream of Electric Screens? Achieving Perfect Accuracy on AndroidWorld Through Task Decomposition
- arxiv url: http://arxiv.org/abs/2602.07787v1
- Date: Sun, 08 Feb 2026 03:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.79975
- Title: Do Multi-Agents Dream of Electric Screens? Achieving Perfect Accuracy on AndroidWorld Through Task Decomposition
- Title(参考訳): マルチエージェントによるエレクトロニックスクリーンの夢? タスク分解によるAndroid Worldの精度向上
- Authors: Pierre-Louis Favreau, Jean-Pierre Lo, Clement Guiguet, Charles Simon-Meunier, Nicolas Dehandschoewercker, Allen G. Roush, Judah Goldfeder, Ravid Shwartz-Ziv,
- Abstract要約: Minitapは、AndroidWorldベンチマークで100%成功したマルチエージェントシステムである。
まず、単一エージェントアーキテクチャが失敗する理由を分析します。
オープンソースソフトウェアとしてMinitapをリリースします。
- 参考スコア(独自算出の注目度): 6.32553258914475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Minitap, a multi-agent system that achieves 100% success on the AndroidWorld benchmark, the first to fully solve all 116 tasks and surpassing human performance (80%). We first analyze why single-agent architectures fail: context pollution from mixed reasoning traces, silent text input failures undetected by the agent, and repetitive action loops without escape. Minitap addresses each failure through targeted mechanisms: cognitive separation across six specialized agents, deterministic post-validation of text input against device state, and meta-cognitive reasoning that detects cycles and triggers strategy changes. Ablations show multi-agent decomposition contributes +21 points over single-agent baselines; verified execution adds +7 points; meta-cognition adds +9 points. We release Minitap as open-source software. https://github.com/minitap-ai/mobile-use
- Abstract(参考訳): われわれは,AndroidWorldベンチマークで100%成功したマルチエージェントシステムであるMinitapを紹介した。
まず、混在した推論トレースからのコンテキスト汚染、エージェントが検出しない無音テキスト入力障害、エスケープせずに反復的なアクションループなど、単一エージェントアーキテクチャがフェールする理由を分析します。
ターゲットとなる6つのエージェント間の認知的分離、デバイス状態に対するテキスト入力の決定論的ポストバリデーション、サイクルを検出して戦略変更をトリガーするメタ認知推論である。
アブレーションでは、マルチエージェント分解はシングルエージェントベースラインに+21点、検証された実行は+7点、メタ認知は+9点となる。
オープンソースソフトウェアとしてMinitapをリリースします。
https://github.com/minitap-ai/mobile-use
関連論文リスト
- If You Want Coherence, Orchestrate a Team of Rivals: Multi-Agent Models of Organizational Intelligence [1.1637186977447433]
完全コンポーネントを得ることなく、不完全なコンポーネントを慎重にオーケストレーションすることで信頼性を実現することができることを示す。
本稿では,このようなシステムのアーキテクチャについて述べる。特殊エージェントチーム(プランナ,実行者,評論家,専門家)。
提案手法は,ユーザの露出前に90%以上の内部エラーインターセプションを達成し,許容可能なレイテンシトレードオフを維持していることを示す。
論文 参考訳(メタデータ) (2026-01-20T17:19:09Z) - Zero-Permission Manipulation: Can We Trust Large Multimodal Model Powered GUI Agents? [6.9619059967556725]
アクションリバインド(Action Rebinding)は、エージェントの実行をリバインドする危険な権限をゼロにする、一見良心的なアプリを可能にする、新たな攻撃である。
エージェントのタスク回復ロジックとAndroidのUI状態保存を武器化し、プログラム可能なマルチステップアタックチェーンを編成する。
以上の結果から,原子間相互作用リバインディングの成功率は100%であり,マルチステップアタックチェーンを確実にオーケストレーションできることが示唆された。
論文 参考訳(メタデータ) (2026-01-18T10:54:54Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns [19.015202590038996]
エージェントの重要なコンポーネントはメモリであり、重要な情報を格納するが、ジェイルブレイク攻撃の影響を受けやすい。
既存の研究は主に単一エージェント攻撃と共有メモリ攻撃に焦点を当てている。
本稿では,大規模なマルチエージェント・マルチトポロジーテキストによる攻撃評価フレームワークであるTMCHTタスクを提案する。
論文 参考訳(メタデータ) (2024-10-21T16:21:24Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。