論文の概要: HATS: Hardness-Aware Trajectory Synthesis for GUI Agents
- arxiv url: http://arxiv.org/abs/2603.12138v1
- Date: Thu, 12 Mar 2026 16:40:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.222226
- Title: HATS: Hardness-Aware Trajectory Synthesis for GUI Agents
- Title(参考訳): HATS:GUIエージェントのためのハードネス対応軌道合成
- Authors: Rui Shao, Ruize Gao, Bin Xie, Yixing Li, Kaiwen Zhou, Shuai Wang, Weili Guan, Gongwei Chen,
- Abstract要約: 本稿では,ハードネスを意識した軌道合成フレームワークHATSを提案する。
我々は、硬さをアクションに関連する意味的あいまいさの度合いとして定義する。
HATSでトレーニングされたエージェントは、ベンチマークGUI環境における最先端のベースラインを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 46.54830370011904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical user interface (GUI) agents powered by large vision-language models (VLMs) have shown remarkable potential in automating digital tasks, highlighting the need for high-quality trajectory data to support effective agent training. Yet existing trajectory synthesis pipelines often yield agents that fail to generalize beyond simple interactions. We identify this limitation as stemming from the neglect of semantically ambiguous actions, whose meanings are context-dependent, sequentially dependent, or visually ambiguous. Such actions are crucial for real-world robustness but are under-represented and poorly processed in current datasets, leading to semantic misalignment between task instructions and execution. To address these issues, we propose HATS, a Hardness-Aware Trajectory Synthesis framework designed to mitigate the impact of semantic ambiguity. We define hardness as the degree of semantic ambiguity associated with an action and develop two complementary modules: (1) hardness-driven exploration, which guides data collection toward ambiguous yet informative interactions, and (2) alignment-guided refinement, which iteratively validates and repairs instruction-execution alignment. The two modules operate in a closed loop: exploration supplies refinement with challenging trajectories, while refinement feedback updates the hardness signal to guide future exploration. Extensive experiments show that agents trained with HATS consistently outperform state-of-the-art baselines across benchmark GUI environments.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)を利用したグラフィカルユーザインタフェース(GUI)エージェントは、デジタルタスクの自動化において顕著な可能性を示し、効果的なエージェントトレーニングを支援するための高品質なトラジェクトリデータの必要性を強調している。
しかし、既存の軌道合成パイプラインは単純な相互作用を超えた一般化に失敗するエージェントを生じることが多い。
この制限は、文脈依存的、逐次依存的、視覚的曖昧な意味を持つ意味的曖昧な行動の無視に起因していると認識する。
このようなアクションは現実世界の堅牢性には不可欠だが、現在のデータセットでは表現不足で処理が不十分なため、タスク命令と実行のセマンティックなミスアライメントにつながる。
これらの問題に対処するために,意味的あいまいさの影響を緩和するハードネス・アウェア・トラジェクトリ・シンセサイザー・フレームワークHATSを提案する。
硬さを動作に関連する意味的あいまいさの度合いとして定義し,(1)不明瞭で情報的な相互作用にデータ収集を誘導する硬さ駆動探索,(2)アライメント誘導改良,(2)命令・実行アライメントを反復的に検証し修復する硬さ駆動探索という2つの相補的なモジュールを開発する。
2つのモジュールはクローズドループで動作し、探査は困難な軌道で改良を供給し、改良のフィードバックは将来の探査を導くために硬度信号を更新する。
大規模な実験により、HATSでトレーニングされたエージェントは、ベンチマークGUI環境全体で一貫して最先端のベースラインを上回ります。
関連論文リスト
- OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents [52.30603055218294]
Trajectory2Taskは,3つの現実的なユーザシナリオの下で大規模なツール使用を研究するための,検証可能なデータ生成パイプラインである。
有効なツールコールトラジェクトリを、制御されたインテント適応を伴うユーザ向けタスクに変換する。
我々は、生成された複雑なユーザシナリオタスクに対して、7つの最先端のLCMをベンチマークし、頻繁な障害を観察する。
論文 参考訳(メタデータ) (2026-01-28T00:36:13Z) - Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback [23.48582504679409]
最先端の政策モデルでさえ不安定な把握行動を示すことが多い。
視覚言語モデル誘導フィードバックによるグルーピング性能の向上を目的とした,プラグイン・アンド・プレイモジュールであるGraspCorrectを紹介する。
論文 参考訳(メタデータ) (2025-03-19T09:25:32Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。