論文の概要: OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis
- arxiv url: http://arxiv.org/abs/2412.19723v1
- Date: Fri, 27 Dec 2024 16:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:32.820928
- Title: OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis
- Title(参考訳): OS-Genesis:リバースタスク合成によるGUIエージェント軌道構築の自動化
- Authors: Qiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu,
- Abstract要約: グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
次に、生成された軌道の品質を保証するために軌道報酬モデルを用いる。
- 参考スコア(独自算出の注目度): 55.390060529534644
- License:
- Abstract: Graphical User Interface (GUI) agents powered by Vision-Language Models (VLMs) have demonstrated human-like computer control capability. Despite their utility in advancing digital automation, a critical bottleneck persists: collecting high-quality trajectory data for training. Common practices for collecting such data rely on human supervision or synthetic data generation through executing pre-defined tasks, which are either resource-intensive or unable to guarantee data quality. Moreover, these methods suffer from limited data diversity and significant gaps between synthetic data and real-world environments. To address these challenges, we propose OS-Genesis, a novel GUI data synthesis pipeline that reverses the conventional trajectory collection process. Instead of relying on pre-defined tasks, OS-Genesis enables agents first to perceive environments and perform step-wise interactions, then retrospectively derive high-quality tasks to enable trajectory-level exploration. A trajectory reward model is then employed to ensure the quality of the generated trajectories. We demonstrate that training GUI agents with OS-Genesis significantly improves their performance on highly challenging online benchmarks. In-depth analysis further validates OS-Genesis's efficiency and its superior data quality and diversity compared to existing synthesis methods. Our codes, data, and checkpoints are available at \href{https://qiushisun.github.io/OS-Genesis-Home/}{OS-Genesis Homepage}.
- Abstract(参考訳): VLM(Vision-Language Models)を利用したGUIエージェントは、人間のようなコンピュータ制御能力を実証している。
デジタル自動化の進歩における有用性にもかかわらず、重要なボトルネックは、トレーニングのための高品質な軌道データ収集である。
このようなデータ収集の一般的なプラクティスは、リソース集約的あるいはデータ品質を保証することができない、事前に定義されたタスクを実行することによって、人間の監督や合成データ生成に依存します。
さらに、これらの手法は、限られたデータ多様性と、合成データと実世界の環境の間の大きなギャップに悩まされている。
これらの課題に対処するために,従来の軌跡収集過程を逆転するGUIデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行し、その後、遡及的に高品質なタスクを導出し、軌道レベルの探索を可能にする。
次に、生成された軌道の品質を保証するために軌道報酬モデルを用いる。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
In-deepth解析により、既存の合成法と比較してOS-Genesisの効率と優れたデータ品質と多様性が検証される。
私たちのコード、データ、チェックポイントは、 \href{https://qiushisun.github.io/OS-Genesis-Home/}{OS-Genesis Homepage}で利用可能です。
関連論文リスト
- BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - Skip the Benchmark: Generating System-Level High-Level Synthesis Data using Generative Machine Learning [8.416553728391309]
高レベル合成(HLS)設計空間探索(DSE)は、HLSプロセスにおいて最適なハードウェアソリューションを探索するための広く受け入れられているアプローチである。
いくつかのHLSベンチマークとデータセットは、研究コミュニティが彼らの方法論を評価するために利用できる。
本稿では,複雑なシステムレベルのHLS DSE実験を支援するのに十分頑健な合成データを生成するために,生成機械学習を用いた新しいアプローチであるVaeganを提案する。
論文 参考訳(メタデータ) (2024-04-23T05:32:22Z) - A survey of synthetic data augmentation methods in computer vision [0.0]
本稿では,合成データ拡張技術について概観する。
我々は、重要なデータ生成と拡張技術、アプリケーション全般の範囲、および特定のユースケースに焦点を当てる。
コンピュータビジョンモデルをトレーニングするための一般的な合成データセットの要約を提供する。
論文 参考訳(メタデータ) (2024-03-15T07:34:08Z) - GenQ: Quantization in Low Data Regimes with Generative Synthetic Data [28.773641633757283]
我々は、高度な生成AIモデルを用いて高分解能合成データを生成する新しいアプローチであるGenQを紹介する。
データの可用性が限られている場合、実際のデータは合成データ生成プロセスのガイドに使用される。
厳密な実験を通じて、GenQはデータフリーおよびデータスカース量子化の新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2023-12-07T23:31:42Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Interactive Data Synthesis for Systematic Vision Adaptation via
LLMs-AIGCs Collaboration [48.54002313329872]
本稿では,ChatGenImageというアノテーション付きデータ拡張の新しいパラダイムを提案する。
その中核となる考え方は、多様なモデルの補完的な強みを活用して、インタラクティブなデータ拡張のための高効率でユーザフレンドリなパイプラインを確立することである。
筆者らはChatGenImageフレームワークから得られた興味深い結果を提示し, 系統的視覚適応のための合成データの強力なポテンシャルを実証する。
論文 参考訳(メタデータ) (2023-05-22T07:53:36Z) - Scalable Modular Synthetic Data Generation for Advancing Aerial Autonomy [2.9005223064604078]
本稿では,自律飛行に適したスケーラブルなAerial Synthetic Data Augmentation (ASDA) フレームワークを提案する。
ASDAは、シーンとデータ拡張を自動的に実行する2つのスクリプト可能なパイプラインを備えた中央データ収集エンジンを拡張している。
多様なデータセットを自動生成する手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-10T04:37:41Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。