論文の概要: FC-MIR: A Mobile Screen Awareness Framework for Intent-Aware Recommendation based on Frame-Compressed Multimodal Trajectory Reasoning
- arxiv url: http://arxiv.org/abs/2512.19107v1
- Date: Mon, 22 Dec 2025 07:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.65557
- Title: FC-MIR: A Mobile Screen Awareness Framework for Intent-Aware Recommendation based on Frame-Compressed Multimodal Trajectory Reasoning
- Title(参考訳): FC-MIR:フレーム圧縮マルチモーダル軌道推論に基づくインテント・アウェア・レコメンデーションのためのモバイル画面認識フレームワーク
- Authors: Zhe Yang, Xiaoshuang Sheng, Zhengnan Zhang, Jidong Wu, Zexing Wang, Xin He, Shenghua Xu, Guanjing Xiong,
- Abstract要約: 本稿では,サンプリングと適応結合を利用して,推論効率を高めるために視覚的冗長性を削減するFC-MIRフレームワークを提案する。
さらに,課題範囲を拡大して,予測後の操作や探索提案の生成を探求するとともに,要約,予測,提案の実用性を評価するための詳細な指標を導入する。
フレームワークを現実世界の環境でデプロイし、UI認識とUI-Agentプロキシを統合して、この分野の将来的な進歩の基礎を築きます。
- 参考スコア(独自算出の注目度): 7.78727102442322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying user intent from mobile UI operation trajectories is critical for advancing UI understanding and enabling task automation agents. While Multimodal Large Language Models (MLLMs) excel at video understanding tasks, their real-time mobile deployment is constrained by heavy computational costs and inefficient redundant frame processing. To address these issues, we propose the FC-MIR framework: leveraging keyframe sampling and adaptive concatenation, it cuts visual redundancy to boost inference efficiency, while integrating state-of-the-art closed-source MLLMs or fine-tuned models (e.g., Qwen3-VL) for trajectory summarization and intent prediction. We further expand task scope to explore generating post-prediction operations and search suggestions, and introduce a fine-grained metric to evaluate the practical utility of summaries, predictions, and suggestions. For rigorous assessment, we construct a UI trajectory dataset covering scenarios from UI-Agents (Agent-I) and real user interactions (Person-I). Experimental results show our compression method retains performance at 50%-60% compression rates; both closed-source and fine-tuned MLLMs demonstrate strong intent summarization, supporting potential lightweight on-device deployment. However, MLLMs still struggle with useful and "surprising" suggestions, leaving room for improvement. Finally, we deploy the framework in a real-world setting, integrating UI perception and UI-Agent proxies to lay a foundation for future progress in this field.
- Abstract(参考訳): モバイルUI操作の軌跡からユーザ意図を識別することは、UI理解の進歩とタスク自動化エージェントの実現に不可欠である。
MLLM(Multimodal Large Language Models)はビデオ理解タスクに優れるが、リアルタイムなモバイルデプロイメントは計算コストと非効率な冗長フレーム処理によって制約される。
これらの問題に対処するため,我々は,キーフレームサンプリングと適応結合を利用するFC-MIRフレームワークを提案する。このフレームワークは,最先端のクローズドソースMLLMや微調整モデル(Qwen3-VLなど)をトラジェクティブの要約と意図予測のために統合しつつ,視覚的冗長性を削減し,推論効率を向上する。
さらに,課題範囲を拡大して,予測後の操作や探索提案の生成を探求するとともに,要約,予測,提案の実用性を評価するための詳細な指標を導入する。
厳密な評価のために,UI-Agents(Agent-I)と実際のユーザインタラクション(Person-I)のシナリオをカバーするUIトラジェクトリデータセットを構築した。
実験の結果, 圧縮方式は50%-60%の圧縮速度で性能を保ち, クローズドソースと微調整のMLLMはどちらも強い意図の要約を示し, 軽量なオンデバイス展開をサポートすることがわかった。
しかし、MLLMは有用で「意外な」提案に苦慮し、改善の余地を残している。
最後に、このフレームワークを現実世界の環境でデプロイし、UI認識とUI-Agentプロキシを統合して、この分野の将来的な進歩の基礎を築きます。
関連論文リスト
- Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - UI-UG: A Unified MLLM for UI Understanding and Generation [19.7078650905834]
UI-UG(UI理解と生成のための統合MLLM)を導入し、両方の機能を統合する。
タスク理解には,グループ相対政策最適化(GRPO)を併用したスーパービジョンファインチューニング(SFT)を用い,より詳細な理解を深める。
生成タスクでは、さらにDPO(Direct Preference Optimization)を使用して、モデルが人間の好みのUIを生成する。
論文 参考訳(メタデータ) (2025-09-29T06:59:09Z) - Small Models, Big Results: Achieving Superior Intent Extraction through Decomposition [8.584946920657517]
本稿では,ユーザインタラクションの軌跡からユーザ意図を理解するための新しいアプローチを提案する。
構造化されたインタラクションの要約を行い、各ユーザアクションからキー情報をキャプチャする。
第2に,集計した要約をベースとした微調整モデルを用いて意図抽出を行う。
論文 参考訳(メタデータ) (2025-09-15T20:20:30Z) - Framing AI System Benchmarking as a Learning Task: FlexBench and the Open MLPerf Dataset [0.0]
LLMerfのような既存のAIシステムベンチマークは、急速に進化するAIの状況に追随するのに苦労することが多く、AIシステムのインフォメーション、最適化、共同設計決定をサポートすることが難しい。
モデルはさまざまなデータセット、ソフトウェア、ハードウェアにわたって継続的に評価され、最適化され、精度、レイテンシ、スループット、エネルギー消費、コストといった重要な指標を使用する。
論文 参考訳(メタデータ) (2025-09-14T20:02:15Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。