論文の概要: D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents
- arxiv url: http://arxiv.org/abs/2509.21799v1
- Date: Fri, 26 Sep 2025 02:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.14542
- Title: D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents
- Title(参考訳): D-Artemis: モバイルGUIマルチエージェントのための対話型認知フレームワーク
- Authors: Hongze Mi, Yibo Feng, Wenjie Lu, Yuqi Wang, Jinyuan Li, Song Cao, He Cui, Tengfei Tian, Xuelin Zhang, Haotian Luo, Di Sun, Naiqiang Tan, Gang Pan,
- Abstract要約: D-ArtemisはGUIエージェントのための新しい検討フレームワークである。
D-Artemisは、詳細なアプリ固有のチップ検索メカニズムを使用して、意思決定プロセスに通知する。
また、TACチェックモジュールとACA(Action Correction Agent)が協調して動作し、実行障害のリスクを軽減している。
実行後状態反映エージェント(SRA)は認知ループを完了し、経験から戦略的学習を可能にする。
- 参考スコア(独自算出の注目度): 22.31993562953754
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Graphical User Interface (GUI) agents aim to automate a wide spectrum of human tasks by emulating user interaction. Despite rapid advancements, current approaches are hindered by several critical challenges: data bottleneck in end-to-end training, high cost of delayed error detection, and risk of contradictory guidance. Inspired by the human cognitive loop of Thinking, Alignment, and Reflection, we present D-Artemis -- a novel deliberative framework in this paper. D-Artemis leverages a fine-grained, app-specific tip retrieval mechanism to inform its decision-making process. It also employs a proactive Pre-execution Alignment stage, where Thought-Action Consistency (TAC) Check module and Action Correction Agent (ACA) work in concert to mitigate the risk of execution failures. A post-execution Status Reflection Agent (SRA) completes the cognitive loop, enabling strategic learning from experience. Crucially, D-Artemis enhances the capabilities of general-purpose Multimodal large language models (MLLMs) for GUI tasks without the need for training on complex trajectory datasets, demonstrating strong generalization. D-Artemis establishes new state-of-the-art (SOTA) results across both major benchmarks, achieving a 75.8% success rate on AndroidWorld and 96.8% on ScreenSpot-V2. Extensive ablation studies further demonstrate the significant contribution of each component to the framework.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、ユーザインタラクションをエミュレートすることで、広範囲のヒューマンタスクを自動化することを目的としている。
急速な進歩にもかかわらず、現在のアプローチは、エンドツーエンドのトレーニングにおけるデータのボトルネック、遅延検出のコストの高い遅延、矛盾するガイダンスのリスクなど、いくつかの重要な課題によって妨げられている。
人間の認知ループである思考・アライメント・リフレクションに触発され、我々はD-アルテミス(D-Artemis, D-Artemis, D-Artemis, D-Artemis, D-Artemis)を新たに発表した。
D-Artemisは、詳細なアプリ固有のチップ検索メカニズムを活用して、意思決定プロセスに通知する。
また、TACチェックモジュールとACA(Action Correction Agent)が協調して動作し、実行障害のリスクを軽減している。
実行後状態反映エージェント(SRA)は認知ループを完了し、経験から戦略的学習を可能にする。
重要なこととして、D-Artemisは複雑な軌跡データセットのトレーニングを必要とせず、GUIタスクのための汎用多目的大言語モデル(MLLM)の機能を強化し、強力な一般化を示す。
D-Artemisは、両方の主要なベンチマークで新しい最先端(SOTA)結果を確立し、AndroidWorldで75.8%、ScreenSpot-V2で96.8%の成功率を達成した。
大規模なアブレーション研究により、各コンポーネントのフレームワークへの重要な貢献がさらに証明された。
関連論文リスト
- Steering LLMs via Scalable Interactive Oversight [74.12746881843044]
大規模な言語モデルは、エンフェーブコーディングのような複雑で長期にわたるタスクをますます自動化し、監督のギャップが生まれています。
スケーラブルな監視において重要な課題は、人間が責任を持ってAIシステムを、特定または検証する能力を超えたタスクで操ることができることだ。
論文 参考訳(メタデータ) (2026-02-04T04:52:00Z) - CLIP-Guided Adaptable Self-Supervised Learning for Human-Centric Visual Tasks [76.00315860962885]
CLASP (CLIP-guided Adaptable Self-su Pervised Learning) は、人中心視覚タスクにおける教師なし事前学習のための新しいフレームワークである。
CLASPは強力な視覚言語モデルCLIPを利用して、低レベル(体の部分など)と高レベル(属性など)のセマンティックな擬似ラベルを生成する。
MoEはタスク固有のプロンプトに基づいて機能抽出を動的に適応し、潜在的な機能競合を緩和し、転送可能性を高める。
論文 参考訳(メタデータ) (2026-01-19T15:19:28Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - D-GARA: A Dynamic Benchmarking Framework for GUI Agent Robustness in Real-World Anomalies [39.738017374978796]
実世界の異常におけるAndroid GUIエージェントの堅牢性を評価するためのベンチマークフレームワークD-GARAを提案する。
D-GARAフレームワークをベースとして、一般的に使われているAndroidアプリケーションに組込み異常のあるベンチマークを構築し、注釈付けする。
総合的な実験と結果は、異常に富む環境に曝露した場合、最先端のGUIエージェントの性能低下を示す。
論文 参考訳(メタデータ) (2025-11-20T17:43:46Z) - Bridging the Task Gap: Multi-Task Adversarial Transferability in CLIP and Its Derivatives [61.58574200236532]
きめ細かいタスクから生成される敵の例は、粗いタスクよりも強い伝達ポテンシャルを示すことが多い。
本稿では,タスク認識機能集約損失を導入し,タスク間の一般化機能を強化した摂動を生成する,新しいフレームワークであるMulti-Task Adversarial CLIP (MT-AdvCLIP)を提案する。
論文 参考訳(メタデータ) (2025-09-28T14:46:52Z) - GUI-PRA: Process Reward Agent for GUI Tasks [25.20594694997543]
プロセスリワードモデル(Process Reward Models, PRM)は、推論中に重要なプロセス信号でこれらのエージェントをガイドできる、有望なソリューションである。
PRMは「中間の失われた」現象に悩まされ、歴史的に圧倒的な状況が現在の段階の評価を損なう。
GUI-PRA(Process Reward Agent for GUI Tasks)は,標準的なPRMよりも優れたプロセス報酬の提供を目的とした判定エージェントである。
論文 参考訳(メタデータ) (2025-09-27T11:42:36Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Instruction Agent: Enhancing Agent with Expert Demonstration [12.67489098612846]
グラフィカルユーザインタフェース(GUI)エージェントは急速に進歩しているが、新しいUI要素、長い水平動作、パーソナライズされた軌跡を含む複雑なタスクに苦戦している。
そこで本研究では,GUIエージェントであるインストラクションエージェントを導入し,このようなタスクを専門的なデモンストレーションで解決し,それ以外は困難なタスクの完了を可能にする。
1つのデモンストレーションが与えられた場合、エージェントはステップバイステップの指示を抽出し、ユーザが意図した軌道を厳密に追従することで実行します。
論文 参考訳(メタデータ) (2025-09-08T18:00:12Z) - MAPLE: A Mobile Agent with Persistent Finite State Machines for Structured Task Reasoning [46.18718721121415]
アプリケーションインタラクションをFSM(Finite State Machine)として抽象化する,状態認識型マルチエージェントフレームワークMAPLEを提案する。
それぞれのUI画面を離散状態として、ユーザアクションをトランジションとしてモデル化し、FSMがアプリケーション実行の構造化された表現を提供できるようにします。
MAPLEは、計画、実行、検証、エラー回復、知識保持という4段階のタスク実行に責任を持つ特殊エージェントで構成されている。
論文 参考訳(メタデータ) (2025-05-29T16:08:51Z) - XBOUND: Exploring Capability Boundaries of Device-Control Agents at the State Level [43.73689966281675]
Device-Control Agents(DCエージェント)はグラフィカルユーザインタフェース(GUI)を管理する
状態ごとの命令完了の精度を評価するための新しい評価手法 XBOUND を提案する。
UI-TARSは最強の7Bモデルであり、現在のエージェントは命令統一においてバイモーダルなパフォーマンスパターンを示し、サブ7Bモデルは状態熟達において制限されている。
論文 参考訳(メタデータ) (2025-05-27T14:49:30Z) - InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners [41.22438639369124]
InfiGUI-R1は、Actor2Reasonerフレームワークを通じて開発されたMLLMベースのGUIエージェントである。
本研究では,教師モデルからMLLMへのクロスモーダル空間推論能力の伝達に空間推論蒸留を用いる。
Reinforcement Learning(強化学習)を用いて基礎的推論を熟考する。
論文 参考訳(メタデータ) (2025-04-19T09:25:55Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Overcoming Catastrophic Forgetting by Exemplar Selection in Task-oriented Dialogue System [34.1424535903384]
知的タスク指向対話システム(ToD)における忘れ課題の克服を目指す。
本稿では, 周期的再学習に有効な経験則を抽出する手法(HESIT)を提案する。
実験結果から,HESITは異常な選択によって破滅的な忘れを効果的に軽減し,ToDsの最大のCLベンチマークで最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2024-05-16T10:54:46Z) - Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文 参考訳(メタデータ) (2024-04-26T16:40:17Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。