論文の概要: MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models
- arxiv url: http://arxiv.org/abs/2606.04627v2
- Date: Sat, 06 Jun 2026 08:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 12:24:31.348467
- Title: MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models
- Title(参考訳): MIRAGE: 暗黙の推論と生成ワールドモデルを備えたモバイルエージェント
- Authors: Zhichao Yang, Yuanze Hu, Haojie Hao, Longkun Hao, Dongshuo Huang, Hongyu Lin, Gen Li, Lanqing Hong, Yihang Lou, Yan Bai,
- Abstract要約: 可視テキスト推論トレースから連続潜時推論表現を学習するフレームワークであるMIRAGEを紹介する。
AndroidWorldでは、MIRAGEは4Bアブレーションで監督された微調整を3~5倍の低い復号化予算と一致している。
AndroidControlでは、75%以上のトークンを生成しながらアクショングラウンドを改善する。
- 参考スコア(独自算出の注目度): 53.09772037247959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile agents are increasingly expected to operate everyday applications from screenshots and language goals, where reliable control requires reasoning over screen affordances, multi-step navigation, and future state changes. However, many agents externalize this computation as long textual chains of thought, which slows interaction, increases supervision cost, and complicates deployment. We introduce MIRAGE, a framework that learns continuous latent reasoning representations from visible textual reasoning traces. MIRAGE transfers explicit reasoning into compact hidden states, enabling the agent to reason internally without decoding long rationales. It also incorporates a generative world-model objective: latent reasoning vectors are aligned with future screenshots, encouraging the agent to anticipate upcoming interface states before acting. This turns hidden computation into both a compressed thought representation and a forward-looking model of environment dynamics. At inference time, MIRAGE reasons in continuous latent space, reducing token generation while improving execution efficiency. On AndroidWorld, MIRAGE matches explicit chain-of-thought supervised fine-tuning in the 4B ablation with a 3-5x lower decoded-token budget and improves a comparable instruction-tuned baseline by 10.2 points; on AndroidControl, it improves action grounding while generating over 75% fewer tokens.
- Abstract(参考訳): モバイルエージェントは、スクリーンショットや言語目標から日々のアプリケーションを運用することがますます期待されている。
しかし、多くのエージェントは、この計算を長いテキストのチェーンとして外部化し、インタラクションを遅くし、監督コストを増大させ、デプロイメントを複雑にする。
可視テキスト推論トレースから連続潜時推論表現を学習するフレームワークであるMIRAGEを紹介する。
MIRAGEは明示的な推論をコンパクトな隠蔽状態に転送し、エージェントが長い有理を復号することなく内部で推論することができる。
潜在推論ベクトルは将来のスクリーンショットと一致しており、エージェントが行動する前に、今後のインターフェース状態を予測するように促す。
これにより、隠れた計算は、圧縮された思考表現と、環境力学の前方に見えるモデルの両方に変換される。
推論時、MIRAGEは連続的な潜伏空間を理由としてトークン生成を削減し、実行効率を向上する。
AndroidWorldでは、MIRAGEは4Bアブレーションにおける明示的なチェーン・オブ・シークレットの微調整と3.5倍の低いデコード・トーケン予算を一致させ、命令チューニングベースラインを10.2ポイント改善した。
関連論文リスト
- ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both [55.182037225013836]
ATLASは、単一の独立した「ワード」を機能トークンと呼び、エージェント操作と潜在視覚推論ユニットの両方として機能するフレームワークである。
ATLASは、明確な解釈可能性を維持しながら、挑戦的なベンチマークで優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-14T17:59:55Z) - M2A: Synergizing Mathematical and Agentic Reasoning in Large Language Models [9.712139528293946]
モデルマージによる数学的およびエージェント的推論を相乗化する新しいパラダイムであるM2Aを提案する。
M2Aはパラメータ空間内で直接動作し、エージェントの振る舞いに不可欠な特徴部分空間を識別し、数学的推論タスクベクトルをヌル空間にのみマージする。
SFT や RL とは異なり、M2A は追加の勾配更新を必要としない。
論文 参考訳(メタデータ) (2026-05-11T02:05:30Z) - Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate [16.68699018207298]
大規模言語モデル(LLM)における推論を改善するためのマルチエージェントの議論が示されている。
2段階の微調整パイプラインを通して,マルチエージェントの議論を単一のLLMに蒸留するフレームワークを開発した。
内部化モデルは、最大93%のトークンを使用して、明示的なマルチエージェントの議論パフォーマンスにマッチするか、超過します。
論文 参考訳(メタデータ) (2026-04-27T18:06:03Z) - LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - Show, Don't Tell: Morphing Latent Reasoning into Image Generation [60.743575139661154]
テキスト・ツー・イメージ(T2I)生成は目覚ましい進歩を遂げているが、既存の手法では生成時に動的に推論や洗練を行う能力が欠如していることが多い。
T2I生成プロセスに暗黙の潜伏推論をシームレスに統合するフレームワークであるLatentMorphを導入する。
連続ラテント空間で完全に推論を行うことにより、ラテントマーフは明示的推論のボトルネックを避け、より適応的な自己精製を可能にする。
論文 参考訳(メタデータ) (2026-02-02T15:29:48Z) - MGA: Memory-Driven GUI Agent for Observation-Centric Interaction [30.45490249299358]
メモリ駆動型GUIエージェント(MGA)を導入し、まず観察の原理に基づいてGUIインタラクションをリフレームし、次に決定する。
MGAは最先端のベースラインに比べてロバスト性、一般化、効率性が著しく向上する。
論文 参考訳(メタデータ) (2025-10-28T08:19:58Z) - MAPLE: A Mobile Agent with Persistent Finite State Machines for Structured Task Reasoning [46.18718721121415]
アプリケーションインタラクションをFSM(Finite State Machine)として抽象化する,状態認識型マルチエージェントフレームワークMAPLEを提案する。
それぞれのUI画面を離散状態として、ユーザアクションをトランジションとしてモデル化し、FSMがアプリケーション実行の構造化された表現を提供できるようにします。
MAPLEは、計画、実行、検証、エラー回復、知識保持という4段階のタスク実行に責任を持つ特殊エージェントで構成されている。
論文 参考訳(メタデータ) (2025-05-29T16:08:51Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。