論文の概要: Agentic Reward Modeling: Verifying GUI Agent via Online Proactive Interaction
- arxiv url: http://arxiv.org/abs/2602.00575v1
- Date: Sat, 31 Jan 2026 07:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 05:16:29.074659
- Title: Agentic Reward Modeling: Verifying GUI Agent via Online Proactive Interaction
- Title(参考訳): エージェント・リワード・モデリング:オンライン・プロアクティブ・インタラクションによるGUIエージェントの検証
- Authors: Chaoqun Cui, Jing Huang, Shijing Wang, Liming Zheng, Qingchao Kong, Zhixiong Zeng,
- Abstract要約: VAGENは、対話ツールを備えた検証エージェントを使用して、自律的に検証戦略を計画するフレームワークである。
VAGEN は LLM-as-a-Judge ベースラインと比較して評価精度が有意に向上することを示す。
- 参考スコア(独自算出の注目度): 7.731207237810125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) is pivotal for the continuous evolution of GUI agents, yet existing evaluation paradigms face significant limitations. Rule-based methods suffer from poor scalability and cannot handle open-ended tasks, while LLM-as-a-Judge approaches rely on passive visual observation, often failing to capture latent system states due to partial state observability. To address these challenges, we advocate for a paradigm shift from passive evaluation to Agentic Interactive Verification. We introduce VAGEN, a framework that employs a verifier agent equipped with interaction tools to autonomously plan verification strategies and proactively probe the environment for evidence of task completion. Leveraging the insight that GUI tasks are typically "easy to verify but hard to solve", VAGEN overcomes the bottlenecks of visual limitations. Experimental results on OSWorld-Verified and AndroidWorld benchmarks demonstrate that VAGEN significantly improves evaluation accuracy compared to LLM-as-a-Judge baselines and further enhances performance through test-time scaling strategies.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、GUIエージェントの継続的な進化において重要であるが、既存の評価パラダイムは重大な制限に直面している。
LLM-as-a-Judgeアプローチは受動的視覚的観察に依存しており、部分的状態の可観測性のために遅延状態の取得に失敗することが多い。
これらの課題に対処するため、受動的評価からエージェント対話的検証へのパラダイムシフトを提唱する。
本稿では,対話ツールを備えた検証エージェントを用いて,検証戦略を自律的に計画し,タスク完了の証拠として積極的に環境を探索するフレームワークVAGENを紹介する。
GUIタスクは一般的に"検証が簡単だが解決が難しい"という洞察を活用することで、VAGENは視覚的制限のボトルネックを克服する。
OSWorld-Verified および AndroidWorld ベンチマークの実験結果から,VAGEN は LLM-as-a-Judge ベースラインと比較して評価精度を著しく向上し,テスト時間スケーリング戦略によるパフォーマンスの向上を図っている。
関連論文リスト
- Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - Steering LLMs via Scalable Interactive Oversight [74.12746881843044]
大規模な言語モデルは、エンフェーブコーディングのような複雑で長期にわたるタスクをますます自動化し、監督のギャップが生まれています。
スケーラブルな監視において重要な課題は、人間が責任を持ってAIシステムを、特定または検証する能力を超えたタスクで操ることができることだ。
論文 参考訳(メタデータ) (2026-02-04T04:52:00Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Orcust: Stepwise-Feedback Reinforcement Learning for GUI Agent [12.334063115362758]
Orcust は Principle-Constrained Reward Modeling と Online VM-Grounded Trajectory Construction を統合したフレームワークである。
OVTCは機器化された仮想マシンをスピンアップして、構造化GUIインタラクション軌跡を自律的に収集する。
論文 参考訳(メタデータ) (2025-09-22T15:40:31Z) - JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - LLMShot: Reducing snapshot testing maintenance via LLMs [0.5218155982819203]
スナップショットテストは、現代のソフトウェア開発におけるUIバリデーションの重要なテクニックとして登場した。
本稿では、VLM(Vision-Language Models)を利用して、スナップショットテストの失敗を自動的に解析する新しいフレームワークであるLLMShotを紹介する。
論文 参考訳(メタデータ) (2025-07-14T08:47:19Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。