論文の概要: Mobile-Aptus: Confidence-Driven Proactive and Robust Interaction in MLLM-based Mobile-Using Agents
- arxiv url: http://arxiv.org/abs/2605.28629v1
- Date: Wed, 27 May 2026 15:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.180461
- Title: Mobile-Aptus: Confidence-Driven Proactive and Robust Interaction in MLLM-based Mobile-Using Agents
- Title(参考訳): Mobile-Aptus:MLLMを用いたモバイル利用エージェントにおける信頼駆動型能動・ロバストインタラクション
- Authors: Zheng Wu, Pengzhou Cheng, Zongru Wu, Yuan Guo, Tianjie Ju, Aston Zhang, Gongshen Liu, Zhuosheng Zhang,
- Abstract要約: MLLMをベースとしたエージェントにおいて,能動的かつ堅牢な相互作用を可能にする普遍的信頼統合フレームワークを提案する。
Mobile-Aptusは、オフラインベンチマークですべてのベースラインを一貫して上回る。
実世界の実験では、Mobile-Aptusは26%のタスク成功率でベースラインを超えた。
- 参考スコア(独自算出の注目度): 43.16770187337347
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in multimodal large language models (MLLMs) have shown exceptional potential in enabling mobile-using agents to autonomously execute human instructions. However, fully automated agents often try to execute tasks even when they are unable to resolve them, leading to the problem of over-execution. Previous studies solve it by training a interactive mobile-using agents to let agents request human interaction when agents can not complete user instructions. However, we find that these interactive agents tend to exhibit over-soliciting behavior, relying excessively on human intervention. To mitigate both over-execution and over-soliciting, we propose a universal confidence integration framework that enables confidence-driven proactive and robust interaction in MLLM-based mobile-using agents. The framework consists of two stages: interaction capability empowerment and confidence bias correction. In the interaction capability empowerment stage, agents learn through supervised fine-tuning to output both actions and confidence scores. In the confidence bias correction stage, agents learn to output more accurate confidence scores by combining semantic similarity retrieval with direct preference optimization. Experimental results show Mobile-Aptus achieves state-of-the-art performance on the four popular mobile-using agent benchmarks: OS-Kairos, AITZ, Meta-GUI, and AndroidControl. Mobile-Aptus consistently outperforms all baselines in offline benchmarks, with an average improvement over 17\% in task success rate. In real-world dynamic experiments, Mobile-Aptus surpasses the baseline by 26% in task success rate with only 0.64 intervention steps per instruction. The codes are available at https://github.com/Wuzheng02/Mobile-Aptus.
- Abstract(参考訳): 近年のMLLM(Multimodal large language model)の進歩は、移動型エージェントが自律的に人間の指示を実行できるという、極めて大きな可能性を示している。
しかし、完全に自動化されたエージェントは、しばしばそれを解決できない場合でもタスクを実行しようとするため、過剰実行の問題が発生する。
これまでの研究では、対話型モバイル利用エージェントを訓練して、エージェントがユーザー指示を完了できない場合に、エージェントがヒューマンインタラクションを要求するようにした。
しかし、これらの対話的エージェントは、人間の介入に過度に依存して、過度に孤立的な行動を示す傾向にある。
本稿では,MLLMをベースとした移動エージェントにおける信頼性駆動型能動的かつ堅牢なインタラクションを実現する,普遍的信頼統合フレームワークを提案する。
このフレームワークは、相互作用能力の強化と信頼バイアス補正という2つの段階で構成されている。
インタラクション能力向上の段階では、エージェントは監督された微調整を通して学習し、アクションと信頼スコアの両方を出力する。
信頼バイアス補正段階において、エージェントは、意味的類似性検索と直接選好最適化を組み合わせることにより、より正確な信頼スコアを出力することを学ぶ。
実験の結果、Mobile-Aptusは、OS-Kairos、AITZ、Meta-GUI、AndroidControlという4つの人気のあるモバイル利用エージェントベンチマークで最先端のパフォーマンスを達成した。
Mobile-Aptusは、オフラインベンチマークにおいて、すべてのベースラインを一貫して上回り、平均的な改善はタスク成功率17\%以上である。
実世界の動的実験では、Mobile-Aptusは1命令あたり0.64の介入ステップで26%のタスク成功率でベースラインを超えている。
コードはhttps://github.com/Wuzheng02/Mobile-Aptus.comで入手できる。
関連論文リスト
- DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。