Fugu-MT 論文翻訳(概要): Do Multi-Agents Dream of Electric Screens? Achieving Perfect Accuracy on AndroidWorld Through Task Decomposition

論文の概要: Do Multi-Agents Dream of Electric Screens? Achieving Perfect Accuracy on AndroidWorld Through Task Decomposition

arxiv url: http://arxiv.org/abs/2602.07787v1
Date: Sun, 08 Feb 2026 03:02:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.79975
Title: Do Multi-Agents Dream of Electric Screens? Achieving Perfect Accuracy on AndroidWorld Through Task Decomposition
Title（参考訳）: マルチエージェントによるエレクトロニックスクリーンの夢? タスク分解によるAndroid Worldの精度向上
Authors: Pierre-Louis Favreau, Jean-Pierre Lo, Clement Guiguet, Charles Simon-Meunier, Nicolas Dehandschoewercker, Allen G. Roush, Judah Goldfeder, Ravid Shwartz-Ziv,
Abstract要約: Minitapは、AndroidWorldベンチマークで100%成功したマルチエージェントシステムである。まず、単一エージェントアーキテクチャが失敗する理由を分析します。オープンソースソフトウェアとしてMinitapをリリースします。
参考スコア（独自算出の注目度）: 6.32553258914475
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Minitap, a multi-agent system that achieves 100% success on the AndroidWorld benchmark, the first to fully solve all 116 tasks and surpassing human performance (80%). We first analyze why single-agent architectures fail: context pollution from mixed reasoning traces, silent text input failures undetected by the agent, and repetitive action loops without escape. Minitap addresses each failure through targeted mechanisms: cognitive separation across six specialized agents, deterministic post-validation of text input against device state, and meta-cognitive reasoning that detects cycles and triggers strategy changes. Ablations show multi-agent decomposition contributes +21 points over single-agent baselines; verified execution adds +7 points; meta-cognition adds +9 points. We release Minitap as open-source software. https://github.com/minitap-ai/mobile-use
Abstract（参考訳）: われわれは,AndroidWorldベンチマークで100%成功したマルチエージェントシステムであるMinitapを紹介した。まず、混在した推論トレースからのコンテキスト汚染、エージェントが検出しない無音テキスト入力障害、エスケープせずに反復的なアクションループなど、単一エージェントアーキテクチャがフェールする理由を分析します。ターゲットとなる6つのエージェント間の認知的分離、デバイス状態に対するテキスト入力の決定論的ポストバリデーション、サイクルを検出して戦略変更をトリガーするメタ認知推論である。アブレーションでは、マルチエージェント分解はシングルエージェントベースラインに+21点、検証された実行は+7点、メタ認知は+9点となる。オープンソースソフトウェアとしてMinitapをリリースします。 https://github.com/minitap-ai/mobile-use

関連論文リスト

Blind Gods and Broken Screens: Architecting a Secure, Intent-Centric Mobile Agent Operating System [30.443894673057816]
我々は,Doubao Mobile Assistantを用いて,最先端のモバイルエージェントのシステムセキュリティ分析を行う。我々は脅威の風景をエージェントアイデンティティ、外部インタフェース、内部推論、アクション実行の4つの次元に分解する。クリーンスレート安全なエージェントOSであるAuraを提案する。
論文参考訳（メタデータ） (2026-02-11T14:52:27Z)
SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks [53.97948802255959]
本稿では,既存の戦略や外部データに頼ることなく,マルチターン攻撃者を訓練するフレームワークを提案する。準備された自己調整は、非拒否的で、よく構造化された、多ターンの逆のプロンプトを微調整することで、使用可能なロールアウトを可能にする。私たちは、意図の整合性、コンプライアンスリスク、詳細レベルを組み合わせたインテントドリフト対応の報酬を通じて、多ターンジェイルブレイクにおける有害な意図を保ちます。
論文参考訳（メタデータ） (2026-02-06T16:44:57Z)
If You Want Coherence, Orchestrate a Team of Rivals: Multi-Agent Models of Organizational Intelligence [1.1637186977447433]
完全コンポーネントを得ることなく、不完全なコンポーネントを慎重にオーケストレーションすることで信頼性を実現することができることを示す。本稿では,このようなシステムのアーキテクチャについて述べる。特殊エージェントチーム(プランナ,実行者,評論家,専門家)。提案手法は,ユーザの露出前に90%以上の内部エラーインターセプションを達成し,許容可能なレイテンシトレードオフを維持していることを示す。
論文参考訳（メタデータ） (2026-01-20T17:19:09Z)
Zero-Permission Manipulation: Can We Trust Large Multimodal Model Powered GUI Agents? [6.9619059967556725]
アクションリバインド(Action Rebinding)は、エージェントの実行をリバインドする危険な権限をゼロにする、一見良心的なアプリを可能にする、新たな攻撃である。エージェントのタスク回復ロジックとAndroidのUI状態保存を武器化し、プログラム可能なマルチステップアタックチェーンを編成する。以上の結果から,原子間相互作用リバインディングの成功率は100%であり,マルチステップアタックチェーンを確実にオーケストレーションできることが示唆された。
論文参考訳（メタデータ） (2026-01-18T10:54:54Z)
BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。 LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文参考訳（メタデータ） (2026-01-08T03:49:39Z)
RSAgent: Learning to Reason and Act for Text-Guided Segmentation via Multi-Turn Tool Invocations [52.752467948588816]
エージェント型マルチモーダル大規模言語モデル(MLLM)であるRSAgentを提案する。 RSAgentはセグメンテーション・ツールボックスをクエリし、視覚的フィードバックを観察し、歴史的観測を用いて空間仮説を改訂し、ターゲットを再ローカライズし、反復的にマスクを洗練させる。 RSAgentはReasonSegテストで66.5% gIoUのゼロショット性能を達成し、Seg-Zero-7Bを9%改善し、RefCOCOgで81.5% cIoUに達した。
論文参考訳（メタデータ） (2025-12-30T06:50:11Z)
Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills [57.740236400672046]
本稿では,知識不足の問題に対処するため,階層型マルチモーダルスキル(HMS)モジュールを提案する。トラジェクトリを実行スキル、コアスキル、そして最終的にはメタスキルに徐々に抽象化し、長期のタスク計画のための階層的な知識構造を提供する。ドメインギャップを埋めるために,Skill-Augmented Monte Carlo Tree Search (SA-MCTS)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-12T06:21:19Z)
SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文参考訳（メタデータ） (2025-05-30T04:25:19Z)
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。 Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2025-01-20T20:35:46Z)
A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns [19.015202590038996]
エージェントの重要なコンポーネントはメモリであり、重要な情報を格納するが、ジェイルブレイク攻撃の影響を受けやすい。既存の研究は主に単一エージェント攻撃と共有メモリ攻撃に焦点を当てている。本稿では,大規模なマルチエージェント・マルチトポロジーテキストによる攻撃評価フレームワークであるTMCHTタスクを提案する。
論文参考訳（メタデータ） (2024-10-21T16:21:24Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。 1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文参考訳（メタデータ） (2024-04-26T04:55:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。