論文の概要: RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation
- arxiv url: http://arxiv.org/abs/2602.16444v1
- Date: Wed, 18 Feb 2026 13:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.600106
- Title: RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation
- Title(参考訳): RoboGene: リアルタイムタスク生成のための多様性駆動型エージェントフレームワークによるVLA事前トレーニングの強化
- Authors: Yixue Zhang, Kun Wu, Zhi Gao, Zhen Zhao, Pei Ren, Zhiyuan Xu, Fei Liao, Xinhua Wang, Shichao Fan, Di Wu, Qiuxuan Feng, Meng Li, Zhengping Che, Chang Liu, Jian Tang,
- Abstract要約: RoboGeneは多様な物理的に可能な操作タスクを生成するために設計されたエージェントフレームワークである。
広範に定量的な分析と大規模な実世界の実験を行い、18k軌道のデータセットを収集した。
結果は、RoboGeneが最先端の基礎モデルよりも大幅に優れていることを示している。
- 参考スコア(独自算出の注目度): 37.52152452548065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pursuit of general-purpose robotic manipulation is hindered by the scarcity of diverse, real-world interaction data. Unlike data collection from web in vision or language, robotic data collection is an active process incurring prohibitive physical costs. Consequently, automated task curation to maximize data value remains a critical yet under-explored challenge. Existing manual methods are unscalable and biased toward common tasks, while off-the-shelf foundation models often hallucinate physically infeasible instructions. To address this, we introduce RoboGene, an agentic framework designed to automate the generation of diverse, physically plausible manipulation tasks across single-arm, dual-arm, and mobile robots. RoboGene integrates three core components: diversity-driven sampling for broad task coverage, self-reflection mechanisms to enforce physical constraints, and human-in-the-loop refinement for continuous improvement. We conduct extensive quantitative analysis and large-scale real-world experiments, collecting datasets of 18k trajectories and introducing novel metrics to assess task quality, feasibility, and diversity. Results demonstrate that RoboGene significantly outperforms state-of-the-art foundation models (e.g., GPT-4o, Gemini 2.5 Pro). Furthermore, real-world experiments show that VLA models pre-trained with RoboGene achieve higher success rates and superior generalization, underscoring the importance of high-quality task generation. Our project is available at https://robogene-boost-vla.github.io.
- Abstract(参考訳): 汎用ロボット操作の追求は、多様な実世界のインタラクションデータの不足によって妨げられている。
視覚や言語におけるWebのデータ収集とは異なり、ロボティックデータ収集は、違法な物理的コストをもたらす活発なプロセスである。
その結果、データ価値を最大化する自動タスクキュレーションは、重要な課題でありながら、未調査の課題である。
既存の手作業の手法は計算不能であり、一般的なタスクに偏っているが、既製の基礎モデルは物理的に不可能な指示を幻覚させることが多い。
そこで本研究では,単一アーム,デュアルアーム,移動ロボット間の多種多様な物理的操作タスクの自動生成を目的としたエージェントフレームワークであるRoboGeneを紹介する。
RoboGeneは、広範囲なタスクカバレッジのための多様性駆動サンプリング、物理的な制約を強制する自己修正メカニズム、継続的改善のための人道改良の3つのコアコンポーネントを統合している。
我々は、広範囲な定量的分析と大規模な実世界の実験を行い、18k軌道のデータセットを収集し、タスクの品質、実現可能性、多様性を評価するための新しい指標を導入する。
その結果、RoboGeneは最先端の基礎モデル(例えば、GPT-4o、Gemini 2.5 Pro)を大幅に上回っていることがわかった。
さらに、実世界の実験では、RoboGeneで事前訓練されたVLAモデルは、高い成功率と優れた一般化を実現し、高品質なタスク生成の重要性を強調している。
私たちのプロジェクトはhttps://robogene-boost-vla.github.io.comで公開されています。
関連論文リスト
- HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model [36.82365894983052]
大きなボトルネックは、デクスタラススキルのための大規模でアクションアノテートされたデータの不足にある。
我々は,エゴセントリックなデータセット上で事前学習したデクスタラス操作のための視覚言語アクションモデルMETISを提案する。
提案手法は,6つの実世界のタスクにおける平均成功率を達成し,異常な操作能力を示す。
論文 参考訳(メタデータ) (2025-11-21T16:32:36Z) - Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version) [25.298789781487084]
RoboTwinは、多種多様な専門家データセットを生成するために、3D生成基盤モデルと大規模言語モデルを使用する生成デジタルツインフレームワークである。
具体的には、RoboTwinは単一の2D画像からさまざまなデジタルツインを生成し、現実的でインタラクティブなシナリオを生成する。
我々のフレームワークはシミュレーションデータと実世界のデータの両方で包括的なベンチマークを提供し、標準化された評価とシミュレーショントレーニングと実世界のパフォーマンスの整合性を向上させる。
論文 参考訳(メタデータ) (2024-09-04T17:59:52Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。