論文の概要: FieldGen: From Teleoperated Pre-Manipulation Trajectories to Field-Guided Data Generation
- arxiv url: http://arxiv.org/abs/2510.20774v2
- Date: Tue, 28 Oct 2025 17:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.86295
- Title: FieldGen: From Teleoperated Pre-Manipulation Trajectories to Field-Guided Data Generation
- Title(参考訳): FieldGen: Teleoperated Pre-Manipulation Trajectories から Field-Guided Data Generation へ
- Authors: Wenhao Wang, Kehe Ye, Xinyu Zhou, Tianxing Chen, Cao Min, Qiaoming Zhu, Xiaokang Yang, Ping Luo, Yongjian Shen, Yang Yang, Maoqing Yao, Yao Mu,
- Abstract要約: FieldGenは、スケーラブルで多様な、高品質な実世界のデータ収集を可能にする、フィールド誘導型データ生成フレームワークである。
実験により、FieldGenでトレーニングされたポリシーは、遠隔操作ベースのベースラインと比較して、より高い成功率と安定性を達成することが示された。
- 参考スコア(独自算出の注目度): 60.28409233931666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale and diverse datasets are vital for training robust robotic manipulation policies, yet existing data collection methods struggle to balance scale, diversity, and quality. Simulation offers scalability but suffers from sim-to-real gaps, while teleoperation yields high-quality demonstrations with limited diversity and high labor cost. We introduce FieldGen, a field-guided data generation framework that enables scalable, diverse, and high-quality real-world data collection with minimal human supervision. FieldGen decomposes manipulation into two stages: a pre-manipulation phase, allowing trajectory diversity, and a fine manipulation phase requiring expert precision. Human demonstrations capture key contact and pose information, after which an attraction field automatically generates diverse trajectories converging to successful configurations. This decoupled design combines scalable trajectory diversity with precise supervision. Moreover, FieldGen-Reward augments generated data with reward annotations to further enhance policy learning. Experiments demonstrate that policies trained with FieldGen achieve higher success rates and improved stability compared to teleoperation-based baselines, while significantly reducing human effort in long-term real-world data collection. Webpage is available at https://fieldgen.github.io/.
- Abstract(参考訳): 大規模で多様なデータセットは、堅牢なロボット操作ポリシーのトレーニングには不可欠だが、既存のデータ収集手法は、スケール、多様性、品質のバランスをとるのに苦労している。
シミュレーションはスケーラビリティを提供するが、模擬と現実のギャップに悩まされ、遠隔操作は多様性と労働コストに制限された高品質なデモンストレーションをもたらす。
フィールド誘導型データ生成フレームワークであるFieldGenを導入し、人間の監督を最小限に抑えながら、スケーラブルで多様で高品質な実世界のデータ収集を可能にする。
FieldGenは操作を2つのステージに分解する。
人間のデモンストレーションは、キーコンタクトをキャプチャして情報をポーズし、その後アトラクションフィールドは、成功した構成に収束した多様な軌道を自動的に生成する。
この分離された設計は、スケーラブルな軌道の多様性と正確な監督を組み合わせる。
さらに、FieldGen-Rewardはポリシー学習をさらに強化するために報酬アノテーション付きデータを生成する。
実験により、FieldGenでトレーニングされたポリシーは、遠隔操作ベースのベースラインよりも高い成功率と安定性を達成すると同時に、長期的な実世界のデータ収集における人間の労力を大幅に削減することを示した。
Webページはhttps://fieldgen.github.io/.comで公開されている。
関連論文リスト
- R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer [35.27100635173712]
視覚言語アクション(VLA)モデルは、堅牢な一般化を達成するために、多種多様なトレーニングデータに依存している。
本稿では,VLAポリシー拡張フレームワークであるEmbodied Manipulation Media Adaptation (EMMA)を提案する。
DreamTransferは、3D構造や幾何学的妥当性を損なうことなく、ロボットビデオのテキスト制御による視覚的編集、前景、背景、照明条件の変換を可能にする。
AdaMixは、動的にトレーニングバッチを再重み付けして、知覚的あるいは運動学的に困難なサンプルに最適化する、ハードサンプル対応のトレーニング戦略である。
論文 参考訳(メタデータ) (2025-09-26T14:34:44Z) - Physics-Driven Data Generation for Contact-Rich Manipulation via Trajectory Optimization [22.234170426206987]
本稿では,物理シミュレーション,人間の実演,モデルベース計画を統合した低コストなデータ生成パイプラインを提案する。
コンタクトリッチな操作タスクに挑戦するための拡散ポリシーをトレーニングすることで,パイプラインの有効性を検証する。
トレーニングされたポリシは、バイマガルアイワアーム用のハードウェアにゼロショットでデプロイされ、人間の入力を最小限に抑えて高い成功率を達成する。
論文 参考訳(メタデータ) (2025-02-27T18:56:01Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation [59.77275587857252]
総合的な人間のデータセットは、必然的に、局所的な部分についての不十分で低解像度な情報を持っている。
本稿では,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
論文 参考訳(メタデータ) (2023-09-25T17:58:46Z) - CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation
Learning [33.88636835443266]
キッチン環境におけるマルチタスク・マルチシーンロボット操作のレンズ下でのロボット学習のスケールアップのためのフレームワークを提案する。
CACTIという名前のフレームワークは,データ収集,データ拡張,視覚表現学習,模倣ポリシートレーニングの4つの段階を別々に扱う。
CACTIフレームワークでは、拡張段階の一部として、画像生成に最先端モデルを適用する利点を強調している。
論文 参考訳(メタデータ) (2022-12-12T05:30:08Z) - Scalable Modular Synthetic Data Generation for Advancing Aerial Autonomy [2.9005223064604078]
本稿では,自律飛行に適したスケーラブルなAerial Synthetic Data Augmentation (ASDA) フレームワークを提案する。
ASDAは、シーンとデータ拡張を自動的に実行する2つのスクリプト可能なパイプラインを備えた中央データ収集エンジンを拡張している。
多様なデータセットを自動生成する手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-10T04:37:41Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。