論文の概要: KG-RAG: Enhancing GUI Agent Decision-Making via Knowledge Graph-Driven Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2509.00366v1
- Date: Sat, 30 Aug 2025 05:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.197675
- Title: KG-RAG: Enhancing GUI Agent Decision-Making via Knowledge Graph-Driven Retrieval-Augmented Generation
- Title(参考訳): KG-RAG:知識グラフ駆動型検索生成によるGUIエージェント決定処理の強化
- Authors: Ziyi Guan, Jason Chun Lok Li, Zhijian Hou, Pingping Zhang, Donglai Xu, Yuzhi Zhao, Mengyang Wu, Jinpeng Chen, Thanh-Toan Nguyen, Pengfei Xian, Wenao Ma, Shengchao Qin, Graziano Chesi, Ngai Wong,
- Abstract要約: KG-RAGは、断片化されたUTGを効率的なリアルタイム検索のために構造化されたベクトルデータベースに変換するフレームワークである。
多様なモバイルアプリでの実験では、KG-RAGは既存の手法より優れており、75.8%の成功率(AutoDroidよりも8.9%改善)を達成した。
KG-Android-BenchとKG-Harmony-Benchという2つのベンチマークを紹介します。
- 参考スコア(独自算出の注目度): 40.870742880272644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress, Graphic User Interface (GUI) agents powered by Large Language Models (LLMs) struggle with complex mobile tasks due to limited app-specific knowledge. While UI Transition Graphs (UTGs) offer structured navigation representations, they are underutilized due to poor extraction and inefficient integration. We introduce KG-RAG, a Knowledge Graph-driven Retrieval-Augmented Generation framework that transforms fragmented UTGs into structured vector databases for efficient real-time retrieval. By leveraging an intent-guided LLM search method, KG-RAG generates actionable navigation paths, enhancing agent decision-making. Experiments across diverse mobile apps show that KG-RAG outperforms existing methods, achieving a 75.8% success rate (8.9% improvement over AutoDroid), 84.6% decision accuracy (8.1% improvement), and reducing average task steps from 4.5 to 4.1. Additionally, we present KG-Android-Bench and KG-Harmony-Bench, two benchmarks tailored to the Chinese mobile ecosystem for future research. Finally, KG-RAG transfers to web/desktop (+40% SR on Weibo-web; +20% on QQ Music-desktop), and a UTG cost ablation shows accuracy saturates at ~4h per complex app, enabling practical deployment trade-offs.
- Abstract(参考訳): 近年の進歩にもかかわらず、Large Language Models (LLM) を利用したグラフィカルユーザインタフェース(GUI)エージェントは、アプリ固有の知識が限られているため、複雑なモバイルタスクに苦労している。
UIトランジショングラフ(UTG)は構造化されたナビゲーション表現を提供するが、抽出が貧弱で非効率な統合のために利用されていない。
KG-RAGは知識グラフ駆動型検索・拡張生成フレームワークで,断片化したUTGを構造化ベクトルデータベースに変換し,効率的なリアルタイム検索を実現する。
KG-RAG は意図誘導型 LLM 探索法を利用して,動作可能なナビゲーションパスを生成し,エージェントの意思決定を向上させる。
KG-RAGは既存の手法よりも優れており、75.8%の成功率(8.9%の改善)、84.6%の決定精度(8.1%の改善)、平均タスクステップ4.5から4.1に低下している。
さらに、将来の研究のために中国のモバイルエコシステムに合わせた2つのベンチマークであるKG-Android-BenchとKG-Harmony-Benchを紹介する。
最後に、KG-RAGはWeb/desktop(Weibo-webで+40% SR、QQ Music-desktopで+20%)に転送される。
関連論文リスト
- UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [150.99040800017036]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning [83.81404871748438]
MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。
フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-07-19T12:33:43Z) - KG-Infused RAG: Augmenting Corpus-Based RAG with External Knowledge Graphs [66.35046942874737]
KG-Infused RAGは、拡散活性化を実装するためにKGをRAGシステムに統合するフレームワークである。
KG-Infused RAGはKGの事実を検索し、クエリを拡張し、コーパスと構造化された事実を組み合わせることで生成を強化する。
論文 参考訳(メタデータ) (2025-06-11T09:20:02Z) - GEM: Gaussian Embedding Modeling for Out-of-Distribution Detection in GUI Agents [13.415165482033395]
環境制約に違反したり、GUIエージェントの現在の能力を超えたりするアウト・オブ・ディストリビューション(OOD)命令は、タスクの故障やセキュリティ上の脅威を引き起こす可能性がある。
従来のOOD検出手法は、複雑な埋め込み空間とGUI環境の進化により、この領域でサブ最適化される。
本稿では,その機能境界を反映したGUIエージェントから抽出した入力埋め込み距離にガウス混合モデルを適用する新しい手法であるGEMを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:29:05Z) - Affordable AI Assistants with Knowledge Graph of Thoughts [15.491866879435332]
大規模言語モデル(LLM)は、ドメイン間で多様なタスクを実行できるAIアシスタントの開発に革命をもたらしている。
我々は、LLM推論と動的に構築された知識グラフ(KGs)を統合する革新的なAIアシスタントアーキテクチャであるKGoT(Knowledge Graph of Thoughts)を提案する。
KGoTはGAIAベンチマークでのタスク成功率を、GPT-4o miniのHugging Face Agentsと比較して29%改善した。
論文 参考訳(メタデータ) (2025-04-03T15:11:55Z) - GFM-RAG: Graph Foundation Model for Retrieval Augmented Generation [84.41557981816077]
本稿では,新しいグラフ基盤モデル (GFM) である GFM-RAG について紹介する。
GFM-RAGは、複雑なクエリ-知識関係をキャプチャするグラフ構造を理由とする、革新的なグラフニューラルネットワークによって実現されている。
効率とニューラルスケーリング法則との整合性を維持しつつ、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-03T07:04:29Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - How to Build an Adaptive AI Tutor for Any Course Using Knowledge Graph-Enhanced Retrieval-Augmented Generation (KG-RAG) [5.305156933641317]
知的学習システム(ITS)におけるLarge Language Models (LLMs)は、パーソナライズされた教育に変革をもたらす機会を提供する。
現在の実装では、2つの重要な課題に直面している。
本稿では,構造化知識表現と文脈認識検索を統合した新しいフレームワークである知識グラフ強化検索(RAG)を提案する。
論文 参考訳(メタデータ) (2023-11-29T15:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。