論文の概要: iSHIFT: Lightweight Slow-Fast GUI Agent with Adaptive Perception
- arxiv url: http://arxiv.org/abs/2512.22009v1
- Date: Fri, 26 Dec 2025 12:09:15 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:03:56.644648
- Title: iSHIFT: Lightweight Slow-Fast GUI Agent with Adaptive Perception
- Title(参考訳): iSHIFT:適応知覚を用いた軽量スローファストGUIエージェント
- Authors: Sarthak Mehrotra, Sairam V C Rebbapragada, Mani Hemanth Reddy Bonthu, Vineeth N Balasubramanian,
- Abstract要約: 我々はiSHIFT: Implicit Slow-fast Hybrid Inference with Flexible Tokensを紹介した。
iSHIFTにより、MLLMはスローモードを切り替えることができ、高精度な視覚的グラウンドリングと、グローバルなキューを使って効率を上げる高速モードを利用することができる。
2.5Bのコンパクトさにもかかわらず、iSHIFTは複数のベンチマークデータセットで最先端のパフォーマンスと一致している。
- 参考スコア(独自算出の注目度): 27.22349186465607
- License:
- Abstract: Multimodal Large Language Models (MLLMs) show strong potential for interpreting and interacting with complex, pixel-rich Graphical User Interface (GUI) environments. However, building agents that are both efficient for high-level tasks and precise for fine-grained interactions remains challenging. GUI agents must perform routine actions efficiently while also handling tasks that demand exact visual grounding, yet existing approaches struggle when accuracy depends on identifying specific interface elements. These MLLMs also remain large and cannot adapt their reasoning depth to the task at hand. In this work, we introduce iSHIFT: Implicit Slow-fast Hybrid Inference with Flexible Tokens, a lightweight agent that integrates latent thinking (implicit chain-of-thought) with a perception control module. iSHIFT enables an MLLM to switch between a slow mode, which leverages detailed visual grounding for high precision and a fast mode that uses global cues for efficiency. Special perception tokens guide attention to relevant screen regions, allowing the model to decide both how to reason and where to focus. Despite its compact 2.5B size, iSHIFT matches state-of-the-art performance on multiple benchmark datasets.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、複雑なピクセルリッチなグラフィカルユーザインタフェース(GUI)環境を解釈し、相互作用する強力な可能性を示す。
しかし、高レベルのタスクに効率的であり、きめ細かいインタラクションに正確なエージェントを構築することは依然として困難である。
GUIエージェントは、正確な視覚的接地を必要とするタスクを処理しながら、ルーチンアクションを効率的に実行しなければならない。
これらのMLLMも大きく保たれており、手元にあるタスクに推論の深さを適応することはできない。
本稿では,iSHIFT: Implicit Slow-fast Hybrid Inference with Flexible Tokensを紹介する。
iSHIFTにより、MLLMはスローモードを切り替えることができ、高精度な視覚的グラウンドリングと、グローバルなキューを使って効率を上げる高速モードを利用することができる。
特別な認識トークンは、関連するスクリーン領域に注意を向け、モデルが理由と焦点の両方を決定することを可能にする。
2.5Bのコンパクトさにもかかわらず、iSHIFTは複数のベンチマークデータセットで最先端のパフォーマンスと一致している。
関連論文リスト
- AFRAgent : An Adaptive Feature Renormalization Based High Resolution Aware GUI agent [21.148033135113927]
インストラクトBLIPに基づくマルチモーダルアーキテクチャを導入し,GUI自動化における優れた性能を実現する。
低解像度画像埋め込みを効果的に強化する適応的特徴正規化(トークンレベルのアフィン変換)手法を提案する。
我々はAFRAgentをMeta-GUIおよびAITWベンチマークで評価し、スマートフォン自動化のための新しい最先端のベースラインを確立する。
論文 参考訳(メタデータ) (2025-11-30T11:32:54Z) - Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。
応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。
本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-10-01T09:20:51Z) - Structuring GUI Elements through Vision Language Models: Towards Action Space Generation [43.932266242034025]
マルチモーダル大規模言語モデル(MLLM)は、人間とコンピュータの相互作用を強化する重要なツールとして登場した。
本稿では,グラフィカルユーザインタフェース(GUI)要素構造化分野におけるMLLMの応用に焦点を当てた。
視覚モジュール機能を強化するために,IAML(IoU-Augmented Maximum Likelihood)トレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2025-08-22T10:14:15Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems [57.30711059396246]
現在のグラフィカルユーザインタフェース(GUI)基盤システムは、自然言語命令に基づいてインターフェース要素を特定する。
人間の二重システム認識にインスパイアされたFocusは,高速予測と系統解析を組み合わせた新しいGUI基盤フレームワークである。
論文 参考訳(メタデータ) (2025-03-09T06:14:17Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。