論文の概要: Curiosity Driven Knowledge Retrieval for Mobile Agents
- arxiv url: http://arxiv.org/abs/2601.19306v1
- Date: Tue, 27 Jan 2026 07:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.230681
- Title: Curiosity Driven Knowledge Retrieval for Mobile Agents
- Title(参考訳): 移動エージェントのための好奇心駆動型知識検索
- Authors: Sijia Li, Xiaoyu Tan, Shahir Ali, Niels Schmidt, Gengchen Ma, Xihe Qiu,
- Abstract要約: 好奇心による知識検索フレームワークを導入し,実行中の不確実性をキュリオシティスコアとして定式化する。
このスコアがしきい値を超えると、システムはドキュメント、コードリポジトリ、履歴トラジェクトリから外部情報を取得する。
実行中、強化されたエージェントは、関連するAppCardを推論プロセスに選択的に統合し、知識の盲点を補償する。
- 参考スコア(独自算出の注目度): 15.258581046703947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile agents have made progress toward reliable smartphone automation, yet performance in complex applications remains limited by incomplete knowledge and weak generalization to unseen environments. We introduce a curiosity driven knowledge retrieval framework that formalizes uncertainty during execution as a curiosity score. When this score exceeds a threshold, the system retrieves external information from documentation, code repositories, and historical trajectories. Retrieved content is organized into structured AppCards, which encode functional semantics, parameter conventions, interface mappings, and interaction patterns. During execution, an enhanced agent selectively integrates relevant AppCards into its reasoning process, thereby compensating for knowledge blind spots and improving planning reliability. Evaluation on the AndroidWorld benchmark shows consistent improvements across backbones, with an average gain of six percentage points and a new state of the art success rate of 88.8\% when combined with GPT-5. Analysis indicates that AppCards are particularly effective for multi step and cross application tasks, while improvements depend on the backbone model. Case studies further confirm that AppCards reduce ambiguity, shorten exploration, and support stable execution trajectories. Task trajectories are publicly available at https://lisalsj.github.io/Droidrun-appcard/.
- Abstract(参考訳): モバイルエージェントは、信頼性の高いスマートフォン自動化に向けて進歩してきたが、複雑なアプリケーションの性能は、不完全な知識と、目に見えない環境への弱い一般化によって制限されている。
好奇心による知識検索フレームワークを導入し,実行中の不確実性をキュリオシティスコアとして定式化する。
このスコアがしきい値を超えると、システムはドキュメント、コードリポジトリ、履歴トラジェクトリから外部情報を取得する。
検索されたコンテンツは構造化されたAppCardに編成され、機能的セマンティクス、パラメータ規約、インターフェースマッピング、インタラクションパターンをエンコードする。
実行中、強化されたエージェントは、関連するAppCardをその推論プロセスに選択的に統合し、知識の盲点を補償し、計画の信頼性を向上させる。
AndroidWorldベンチマークの評価では、バックボーン全体で一貫した改善が見られ、GPT-5と組み合わせると、平均6ポイント、新しい最先端の成功率は88.8\%となる。
分析によると、AppCardは特にマルチステップとクロスアプリケーションタスクに有効であり、改善はバックボーンモデルに依存している。
ケーススタディでは、AppCardsが曖昧さを減らし、探索を短縮し、安定した実行軌跡をサポートすることが確認されている。
Task trajectoriesはhttps://lisalsj.github.io/Droidrun-appcard/.comで公開されている。
関連論文リスト
- Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - BugRepro: Enhancing Android Bug Reproduction with Domain-Specific Knowledge Integration [4.833035081314386]
BugReproは、バグ再現の正確性と効率を高めるために、ドメイン固有の知識を統合する新しいテクニックである。
BugReproは2つの最先端メソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-05-20T15:48:34Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Beyond Pass or Fail: Multi-Dimensional Benchmarking of Foundation Models for Goal-based Mobile UI Navigation [15.80796682874844]
ユーザインタフェース(UI)ナビゲーションの産業的設定における基礎モデル(FM)の評価のためのベンチマークであるSphinxを提案する。
Google PlayアプリケーションとWeChatの内部UIテストケースの両方を使用して、20の異なる構成を持つ8つのFMを評価した。
その結果、既存のFMは、主にUI固有の機能不足のため、ゴールベースのテストタスクに普遍的に苦労していることがわかった。
論文 参考訳(メタデータ) (2025-01-06T09:10:11Z) - DeepNote: Note-Centric Deep Retrieval-Augmented Generation [72.70046559930555]
Retrieval-Augmented Generation (RAG)は質問応答のための大規模言語モデル(LLM)における事実誤りと幻覚を緩和する
我々は、ノート中心の適応検索により、知識ソースの奥深くで堅牢な探索を実現する適応RAGフレームワークであるDeepNoteを開発した。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - LLM Agents Improve Semantic Code Search [6.047454623201181]
本稿では、ユーザプロンプトに情報を注入する検索拡張型エージェントのアプローチを提案する。
RAGを利用することで、エージェントはGitHubリポジトリから関連する詳細でユーザクエリを強化し、より情報的でコンテキスト整合性を高めます。
CodeSearchNetデータセットの実験結果は、RepoRiftが既存のメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-08-05T00:43:56Z) - GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices [47.98821056800437]
クロスプラットフォームなモバイルGUIナビゲーションのためのデータセットであるGUIOdysseyを提示する。
GuiOdysseyは8,334エピソードで構成され、平均15.3ステップで6つのモバイルデバイス、212の異なるアプリ、1,357のアプリの組み合わせをカバーしている。
我々は,履歴リサンプラーモジュールを備えた長期横断ナビゲーションのための探索的マルチモーダルエージェントであるOdysseyAgentを開発した。
論文 参考訳(メタデータ) (2024-06-12T17:44:26Z) - Emerging App Issue Identification via Online Joint Sentiment-Topic
Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。
AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。
Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文 参考訳(メタデータ) (2020-08-23T06:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。