論文の概要: InquireMobile: Teaching VLM-based Mobile Agent to Request Human Assistance via Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2508.19679v1
- Date: Wed, 27 Aug 2025 08:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.561889
- Title: InquireMobile: Teaching VLM-based Mobile Agent to Request Human Assistance via Reinforcement Fine-Tuning
- Title(参考訳): InquireMobile: 強化ファインチューニングによる人的支援を依頼するVLMベースのモバイルエージェント
- Authors: Qihang Ai, Pi Bu, Yue Cao, Yingyao Wang, Jihao Gu, Jingxuan Xing, Zekun Zhu, Wei Jiang, Zhicheng Zheng, Jun Song, Yuning Jiang, Bo Zheng,
- Abstract要約: VLM(Vision-Language Models)は、人間の指示に基づいて現実のモバイル環境を知覚し、対話することを可能にする。
現在の完全に自律的なパラダイムは、モデル理解や推論能力が不十分な場合に潜在的な安全リスクをもたらす。
強化学習にインスパイアされた新しいモデルである textbfInquireMobile を提案する。
- 参考スコア(独自算出の注目度): 16.991394947356607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) have enabled mobile agents to perceive and interact with real-world mobile environments based on human instructions. However, the current fully autonomous paradigm poses potential safety risks when model understanding or reasoning capabilities are insufficient. To address this challenge, we first introduce \textbf{InquireBench}, a comprehensive benchmark specifically designed to evaluate mobile agents' capabilities in safe interaction and proactive inquiry with users, encompassing 5 categories and 22 sub-categories, where most existing VLM-based agents demonstrate near-zero performance. In this paper, we aim to develop an interactive system that actively seeks human confirmation at critical decision points. To achieve this, we propose \textbf{InquireMobile}, a novel model inspired by reinforcement learning, featuring a two-stage training strategy and an interactive pre-action reasoning mechanism. Finally, our model achieves an 46.8% improvement in inquiry success rate and the best overall success rate among existing baselines on InquireBench. We will open-source all datasets, models, and evaluation codes to facilitate development in both academia and industry.
- Abstract(参考訳): 近年のVLM(Vision-Language Models)の進歩により,人間による指示に基づく実世界の移動環境の認識と対話が可能になった。
しかし、現在の完全に自律的なパラダイムは、モデル理解や推論能力が不十分な場合に潜在的な安全リスクをもたらす。
この課題に対処するために,我々はまず,モバイルエージェントの安全なインタラクションおよびユーザとの積極的な調査能力を評価するために設計された総合ベンチマークである‘textbf{InquireBench} を紹介した。
本稿では,批判的決定点における人間の確認を積極的に求める対話型システムを開発することを目的とする。
そこで本研究では,強化学習にインスパイアされた新しいモデルである‘textbf{InquireMobile} を提案する。
最後に,既存のInquireBenchベースラインにおいて,調査成功率を46.8%向上させ,全体の成功率を最良とする。
学術と産業の両方での開発を促進するために、すべてのデータセット、モデル、評価コードをオープンソースにします。
関連論文リスト
- MVISU-Bench: Benchmarking Mobile Agents for Real-World Tasks by Multi-App, Vague, Interactive, Single-App and Unethical Instructions [11.021990614727702]
textbfMVISU-Benchは137のモバイルアプリケーションに404のタスクを含むベンチマークである。
また,リスクを軽減し,モバイルエージェントのユーザ意図を明らかにするために,動的プロンプトプロンプトプロンプトとして機能するプラグイン・アンド・プレイモジュールであるAiderを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:18:30Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [59.419801718418384]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z) - An Introduction to Multi-Agent Reinforcement Learning and Review of its
Application to Autonomous Mobility [1.496194593196997]
マルチエージェント強化学習(MARL、Multi-Agent Reinforcement Learning)は、複数のエージェントが相互に相互作用する最適な解を見つけることを目的とした研究分野である。
この研究は、自律移動の研究者にこの分野の概要を提供することを目的としている。
論文 参考訳(メタデータ) (2022-03-15T06:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。