論文の概要: UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents
- arxiv url: http://arxiv.org/abs/2605.29534v1
- Date: Thu, 28 May 2026 07:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.034327
- Title: UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents
- Title(参考訳): UI-KOBE:軽量グラフ誘導GUIエージェントの知識指向行動探索
- Authors: Yuxiang Chai, Han Xiao, Xinyu Fu, Jinpeng Chen, Rui Liu, Hongsheng Li,
- Abstract要約: アプリケーション固有のグラフ知識を再利用して軽量なモバイルGUIエージェントを改善するフレームワークを提案する。
アプリ固有のグラフガイダンスで実行時の決定をサポートすることで、UI-KOBEはエンドツーエンドのGUI計画の負担を軽減する。
- 参考スコア(独自算出の注目度): 33.89954113101281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in mobile GUI agents have shown strong potential for automating mobile tasks, but most effective systems still depend on large vision-language models for screenshot understanding and long-horizon planning. Small GUI agents that can be deployed directly on mobile devices are more attractive for practical use, offering lower inference cost and better protection of sensitive on-device information. However, due to limited model capacity, such lightweight agents remain unreliable when planning and executing GUI tasks end-to-end from screenshots alone. We propose Knowledge-Oriented Behavior Exploration (\textbf{UI-KOBE}), a framework that improves lightweight mobile GUI agents with reusable app-specific graph knowledge. UI-KOBE first autonomously explores a mobile application and constructs an app knowledge graph, where nodes represent distinct UI states and edges represent executable transitions. At runtime, a lightweight GUI agent uses the graph as external guidance: given a user task and the current screenshot, it identifies the current graph node and selects among self-loop actions, neighboring transitions, task completion, or fallback free actions associated with that node. By supporting runtime decisions with app-specific graph guidance, UI-KOBE reduces the burden of end-to-end GUI planning and helps lightweight models perform mobile GUI tasks more effectively, offering a practical step toward efficient, interpretable, and privacy-conscious on-device GUI agents.
- Abstract(参考訳): モバイルGUIエージェントの最近の進歩は、モバイルタスクの自動化に強い可能性を示しているが、最も効果的なシステムは、スクリーンショット理解と長期計画のための大きな視覚言語モデルに依存している。
モバイルデバイスに直接デプロイできる小さなGUIエージェントは、より実用的にも魅力的であり、推論コストが低く、デバイス上での機密情報の保護も改善されている。
しかし、モデルキャパシティが限られているため、GUIタスクをスクリーンショットだけで計画し実行する際には、そのような軽量エージェントは信頼できないままである。
本稿では,アプリケーション固有のグラフ知識を再利用して,軽量なモバイルGUIエージェントを改善するフレームワークであるKnowledge-Oriented Behavior Exploration (\textbf{UI-KOBE})を提案する。
UI-KOBEは、まずモバイルアプリケーションを自律的に探索し、アプリケーションの知識グラフを構築します。
ユーザタスクと現在のスクリーンショットが与えられたら、現在のグラフノードを特定し、そのノードに関連するセルフループアクション、隣接するトランジション、タスク補完、フォールバックフリーアクションの中から選択する。
アプリ固有のグラフガイダンスで実行時の決定をサポートすることで、UI-KOBEはエンドツーエンドのGUI計画の負担を軽減し、軽量モデルがモバイルGUIタスクをより効率的に実行できるようにする。
関連論文リスト
- MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - ViMo: A Generative Visual GUI World Model for App Agents [60.27668506731929]
ViMoは、将来のApp観測をイメージとして生成するために設計されたビジュアルワールドモデルである。
本稿では,シンボルプレースホルダーによるテキストコンテンツをオーバーレイする新しいデータ表現であるシンボリックテキスト表現を提案する。
この設計では、将来のGUIのグラフィックスを予測するSTR Predictorと、対応するテキストを生成するGUI-text Predictorが使用されている。
論文 参考訳(メタデータ) (2025-04-15T14:03:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - MobileFlow: A Multimodal LLM For Mobile GUI Agent [4.7619361168442005]
本稿では,モバイルGUIエージェント用のマルチモーダルな大規模言語モデルであるMobileFlowを紹介する。
MobileFlowは約21億のパラメータを含み、新しいハイブリッドビジュアルエンコーダを備えている。
画像データを完全に解釈し、GUIインタラクションタスクのユーザ命令を理解する能力がある。
論文 参考訳(メタデータ) (2024-07-05T08:37:10Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。