論文の概要: GAIA: A Data Flywheel System for Training GUI Test-Time Scaling Critic Models
- arxiv url: http://arxiv.org/abs/2601.18197v1
- Date: Mon, 26 Jan 2026 06:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.70418
- Title: GAIA: A Data Flywheel System for Training GUI Test-Time Scaling Critic Models
- Title(参考訳): GAIA:GUIテストタイムスケーリング批判モデルのトレーニング用データフライホイールシステム
- Authors: Shaokang Wang, Pei Fu, Ruoceng Zhang, Shaojie Zhang, Xiuwen Xi, Jiahui Yang, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan,
- Abstract要約: 本稿では,モデルに反復的批判機能を持たせるためのトレーニングフレームワークであるGUI Action Critic's Data Flywheel System (GAIA)を提案する。
具体的には、ベースエージェントからの正および負のアクション例を用いて直観的批判モデル(ICM)を訓練する。
我々は様々なデータセットの実験を行い、提案したICMが様々なクローズドソースおよびオープンソースモデルの試験時間性能を向上させることを実証する。
- 参考スコア(独自算出の注目度): 18.14416135619429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Vision-Language Models (LVLMs) have significantly advanced GUI agents' capabilities in parsing textual instructions, interpreting screen content, and executing tasks, a critical challenge persists: the irreversibility of agent operations, where a single erroneous action can trigger catastrophic deviations. To address this, we propose the GUI Action Critic's Data Flywheel System (GAIA), a training framework that enables the models to have iterative critic capabilities, which are used to improve the Test-Time Scaling (TTS) of basic GUI agents' performance. Specifically, we train an Intuitive Critic Model (ICM) using positive and negative action examples from a base agent first. This critic evaluates the immediate correctness of the agent's intended actions, thereby selecting operations with higher success probability. Then, the initial critic guides agent actions to collect refined positive/negative samples, initiating the self-improving cycle. The augmented data then trains a second-round critic with enhanced discernment capability. We conduct experiments on various datasets and demonstrate that the proposed ICM can improve the test-time performance of various closed-source and open-source models, and the performance can be gradually improved as the data is recycled. The code and dataset will be publicly released.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、テキスト命令のパース、画面の内容の解釈、タスクの実行においてGUIエージェントの能力が大きく進歩しているが、重要な課題は、エージェント操作の不可逆性である。
そこで本研究では,基本的なGUIエージェントの性能試験時間スケーリング(TTS)を改善するために,モデルに反復的批判機能を持たせるためのトレーニングフレームワークであるGUI Action Critic's Data Flywheel System (GAIA)を提案する。
具体的には、まず、ベースエージェントからの正と負のアクション例を用いて直観的批判モデル(ICM)を訓練する。
この批判は、エージェントの意図した行動の即時正しさを評価し、より高い成功率の操作を選択する。
次に、初期批評家はエージェントアクションをガイドし、精製された正・負のサンプルを収集し、自己改善サイクルを開始する。
強化されたデータは、第2ラウンドの批評家を識別能力の強化で訓練する。
我々は,様々なデータセットの実験を行い,提案したICMが様々なクローズドソースおよびオープンソースモデルの試験時間性能を向上できることを示す。
コードとデータセットは公開される。
関連論文リスト
- ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。