論文の概要: Quick on the Uptake: Eliciting Implicit Intents from Human Demonstrations for Personalized Mobile-Use Agents
- arxiv url: http://arxiv.org/abs/2508.08645v1
- Date: Tue, 12 Aug 2025 05:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.307896
- Title: Quick on the Uptake: Eliciting Implicit Intents from Human Demonstrations for Personalized Mobile-Use Agents
- Title(参考訳): 個人化モバイル利用エージェントのための人間デモからインプティシットインテントを除去するクイック・テイク
- Authors: Zheng Wu, Heyuan Huang, Yanjia Yang, Yuanyi Song, Xingyu Lou, Weiwen Liu, Weinan Zhang, Jun Wang, Zhuosheng Zhang,
- Abstract要約: textbfFlow textbfRecognitionに基づいて構築された textbfIFRAgent を提案する。
IFRAgentは人間のデモからの明示的な意図フローを分析し、標準的な操作手順のクエリレベルベクトルライブラリを構築する。
- 参考スコア(独自算出の注目度): 35.28287742448611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As multimodal large language models advance rapidly, the automation of mobile tasks has become increasingly feasible through the use of mobile-use agents that mimic human interactions from graphical user interface. To further enhance mobile-use agents, previous studies employ demonstration learning to improve mobile-use agents from human demonstrations. However, these methods focus solely on the explicit intention flows of humans (e.g., step sequences) while neglecting implicit intention flows (e.g., personal preferences), which makes it difficult to construct personalized mobile-use agents. In this work, to evaluate the \textbf{I}ntention \textbf{A}lignment \textbf{R}ate between mobile-use agents and humans, we first collect \textbf{MobileIAR}, a dataset containing human-intent-aligned actions and ground-truth actions. This enables a comprehensive assessment of the agents' understanding of human intent. Then we propose \textbf{IFRAgent}, a framework built upon \textbf{I}ntention \textbf{F}low \textbf{R}ecognition from human demonstrations. IFRAgent analyzes explicit intention flows from human demonstrations to construct a query-level vector library of standard operating procedures (SOP), and analyzes implicit intention flows to build a user-level habit repository. IFRAgent then leverages a SOP extractor combined with retrieval-augmented generation and a query rewriter to generate personalized query and SOP from a raw ambiguous query, enhancing the alignment between mobile-use agents and human intent. Experimental results demonstrate that IFRAgent outperforms baselines by an average of 6.79\% (32.06\% relative improvement) in human intention alignment rate and improves step completion rates by an average of 5.30\% (26.34\% relative improvement). The codes are available at https://github.com/MadeAgents/Quick-on-the-Uptake.
- Abstract(参考訳): マルチモーダルな大規模言語モデルが急速に進歩するにつれて、グラフィカルユーザインタフェースからの人間のインタラクションを模倣するモバイル利用エージェントを使用することで、モバイルタスクの自動化がますます実現可能になっている。
モバイル・ユース・エージェントをさらに強化するために、従来の研究では、人間のデモからモバイル・ユース・エージェントを改善するためにデモ・ラーニングを用いていた。
しかし、これらの手法は、暗黙の意図の流れ(例えば、ステップシーケンス)を無視しながら、人間の明示的な意図の流れ(例えば、個人の嗜好)にのみ焦点を当てており、個人化されたモバイル利用エージェントの構築が困難である。
本研究では,モバイルエージェントと人間の間での「textbf{I}ntention \textbf{A}lignment \textbf{R}ate」を評価するために,まず,人間の意図に沿った行動と接地的行動を含むデータセットである「textbf{MobileIAR}」を収集する。
これにより、エージェントの人間の意図に対する理解を総合的に評価することができる。
そこで,本研究では, 人間の実演から認識するフレームワークとして, \textbf{I}ntention \textbf{F}low \textbf{R}low \textbf{R}ecognitionを提案する。
IFRAgentは人間のデモからの明示的な意図フローを分析し、標準的な操作手順(SOP)のクエリレベルベクトルライブラリを構築し、暗黙的な意図フローを分析してユーザレベルの習慣リポジトリを構築する。
IFRAgentは、検索拡張生成とクエリリライタを組み合わせたSOP抽出器を利用して、生のあいまいなクエリからパーソナライズされたクエリとSOPを生成し、モバイル利用エージェントと人間の意図との整合性を高める。
IFRAgent は人間の意図的アライメント率において平均 6.79 % (32.06 % の相対的改善) でベースラインを上回り、平均 5.30 % (26.34 % の相対的改善) でステップ完了率を向上させることを示した。
コードはhttps://github.com/MadeAgents/Quick-on-the-Uptake.comで公開されている。
関連論文リスト
- QueryCraft: Transformer-Guided Query Initialization for Enhanced Human-Object Interaction Detection [7.030364980618468]
本稿では,セマンティックな事前情報と特徴学習を組み込んだ新しいプラグアンドプレイHOI検出フレームワークを提案する。
本手法はHICO-DetおよびV-COCOベンチマーク上での最先端性能と強力な一般化を実現する。
論文 参考訳(メタデータ) (2025-08-12T03:11:16Z) - Interact with me: Joint Egocentric Forecasting of Intent to Interact, Attitude and Social Actions [25.464036307823974]
SocialEgoNetはグラフベースのフレームワークで、階層的な学習アプローチを通じてタスク依存を利用する。
SocialEgoNetは、高い推論速度のためにビデオ入力のわずか1秒から抽出されたボディスケルトン(顔、手、体からキーポイント)を使用する。
評価のために、新しいクラスラベルとバウンディングボックスアノテーションとの既存のエゴセントリックなヒューマンエージェントインタラクションを強化する。
論文 参考訳(メタデータ) (2024-12-21T16:54:28Z) - RefHCM: A Unified Model for Referring Perceptions in Human-Centric Scenarios [60.772871735598706]
RefHCM(Referring Human-Centric Model)は、人間中心の幅広い参照タスクを統合するためのフレームワークである。
RefHCMは、画像、テキスト、座標、パースマップを含む生のマルチモーダルデータをセマンティックトークンに変換するためにシーケンスマージを採用している。
この研究は、一般的なフレームワークで人間の知覚を参照しようとする最初の試みである。
論文 参考訳(メタデータ) (2024-12-19T08:51:57Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。