論文の概要: Faithful Mobile GUI Agents with Guided Advantage Estimator
- arxiv url: http://arxiv.org/abs/2605.01208v1
- Date: Sat, 02 May 2026 02:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.641251
- Title: Faithful Mobile GUI Agents with Guided Advantage Estimator
- Title(参考訳): ガイド付アドバンテージ推定器を用いた忠実な移動GUIエージェント
- Authors: Haowen Hu, Pengzhou Cheng, Zheng Wu, Lingzhong Dong, Gongshen Liu, Zhuosheng Zhang,
- Abstract要約: 視覚言語モデルに基づくグラフィカルユーザインタフェース(GUI)エージェントは、強力なインタラクション機能を示している。
本稿では,GUIインタラクションを再構築し,根拠と内部整合性を優先する忠実度優先フレームワークであるFithful-Agentを提案する。
- 参考スコア(独自算出の注目度): 23.787801326748895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language model based graphical user interface (GUI) agents have shown strong interaction capabilities. However, they often behave unfaithfully, relying on memorized shortcuts rather than grounding actions in displayed screen evidence or user instructions. To address this, we propose Faithful-Agent, a faithfulness-first framework that reformulates GUI interaction to prioritize evidence groundedness and internal consistency. Faithful-Agent employs a two-stage pipeline: (i) a faithfulness-oriented SFT stage to instill abstainment behaviors under evidence perturbations; (ii) an RFT stage that further amplifies faithfulness by introducing the guided advantage estimator (GuAE), an anchor-based and variance-adaptive advantage tempering mechanism built upon GRPO. GuAE prevents advantage collapse in low-variance rollout groups under sparse GUI rewards, and with a thought-action consistency reward, Faithful-Agent (Stage II) elevates the Trap SR from 13.88\% to 80.21\% relative to the baseline, while preserving robust general instruction-following performance.
- Abstract(参考訳): 視覚言語モデルに基づくグラフィカルユーザインタフェース(GUI)エージェントは、強力なインタラクション機能を示している。
しかし、しばしば、表示された画面証拠やユーザー指示のアクションを根拠にするのではなく、記憶されたショートカットに頼って不誠実に振る舞う。
そこで我々は,GUIインタラクションを再構築し,根拠と内部整合性を優先する忠実度優先のフレームワークであるFithful-Agentを提案する。
Faithful-Agentは2段階のパイプラインを採用している。
一 証拠の摂動による棄権行動の実施のための忠実志向のSFT段階
(II) GRPO上に構築されたアンカーベースで分散適応的な利便緩和機構である誘導利便推定器(GuAE)を導入することにより、さらに忠実度を増幅するRFTステージ。
GuAEはGUI報酬の少ない低分散ロールアウトグループにおいて有利な崩壊を防ぎ、思想的整合性報酬(英語版)により、Fithful-Agent (Stage II)はTrap SRをベースラインに対して13.88\%から80.21\%に上昇させ、堅牢な汎用命令追従性能を維持した。
関連論文リスト
- Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Less Approximates More: Harmonizing Performance and Confidence Faithfulness via Hybrid Post-Training for High-Stakes Tasks [52.81286869496811]
大規模な言語モデルは、自信を持って不正確な推論が現実世界の害を引き起こすような、ハイテイクなタスクにますますデプロイされている。
内的フィードバックからの教師なし強化学習と推論・トラス誘導型推論蒸留を併用して協調的に最適化することを提案する。
PRG方式のメトリクスを用いてRDとRLIFを適応的に重み付けするハイブリッドポストトレーニングフレームワークであるHyTuningを紹介する。
論文 参考訳(メタデータ) (2026-04-09T16:50:11Z) - RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning [67.78566256784404]
Supervised Fine-Tuning (SFT) は高速な適応を可能にし、しばしば知識のオーバーライトを引き起こす。
強化学習(RL)は、事前の相互作用ロジックを消去から保護する固有のレジリエンスを示す。
textbfContinual textbfGUI textbfLearningフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-03T13:02:20Z) - Agentic Reward Modeling: Verifying GUI Agent via Online Proactive Interaction [7.731207237810125]
VAGENは、対話ツールを備えた検証エージェントを使用して、自律的に検証戦略を計画するフレームワークである。
VAGEN は LLM-as-a-Judge ベースラインと比較して評価精度が有意に向上することを示す。
論文 参考訳(メタデータ) (2026-01-31T07:36:54Z) - MagicGUI-RMS: A Multi-Agent Reward Model System for Self-Evolving GUI Agents via Automated Feedback Reflux [37.49192877577783]
本稿では,適応軌道評価,修正フィードバック,自己進化学習機能を実現するマルチエージェント報酬モデルシステムMagicGUI-RMSを提案する。
大規模な報酬学習を支援するため、バランスの取れた多様な報酬データセットを自動的に生成する構造化データ構築パイプラインを設計する。
実験により、MagicGUI-RMSはタスクの正確性、振る舞いの堅牢性においてかなりの利益をもたらすことが示された。
論文 参考訳(メタデータ) (2026-01-19T13:50:43Z) - Orcust: Stepwise-Feedback Reinforcement Learning for GUI Agent [12.334063115362758]
Orcust は Principle-Constrained Reward Modeling と Online VM-Grounded Trajectory Construction を統合したフレームワークである。
OVTCは機器化された仮想マシンをスピンアップして、構造化GUIインタラクション軌跡を自律的に収集する。
論文 参考訳(メタデータ) (2025-09-22T15:40:31Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - MobileIPL: Enhancing Mobile Agents Thinking Process via Iterative Preference Learning [45.46445208254837]
The Chain of Action-Planning Thoughts (CoaT) paradigm has been shown to improve the reasoning performance of VLM-based mobile agent in GUI task。
対話型サンプリングによりCoaTツリーを構築し,ルールベース報酬を用いて葉ノードをスコアし,フィードバックをバックプロパゲートして思考レベル直接選好最適化(T-DPO)のペアを導出する反復選好学習(IPL)を提案する。
論文 参考訳(メタデータ) (2025-05-18T08:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。