論文の概要: HybridGen: VLM-Guided Hybrid Planning for Scalable Data Generation of Imitation Learning
- arxiv url: http://arxiv.org/abs/2503.13171v1
- Date: Mon, 17 Mar 2025 13:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:00.681573
- Title: HybridGen: VLM-Guided Hybrid Planning for Scalable Data Generation of Imitation Learning
- Title(参考訳): HybridGen: VLM-Guided Hybrid Planning for Scalable Data Generation of Imitation Learning
- Authors: Wensheng Wang, Ning Tan,
- Abstract要約: HybridGenはビジョンランゲージモデルとハイブリッドプランニングを統合する自動化フレームワークである。
特定のデータフォーマットを必要とせずに、大量のトレーニングデータを生成する。
最も困難なタスク変種では、HybridGenは、59.7%の平均的な成功率に到達して、大幅な改善を達成している。
- 参考スコア(独自算出の注目度): 2.677995462843075
- License:
- Abstract: The acquisition of large-scale and diverse demonstration data are essential for improving robotic imitation learning generalization. However, generating such data for complex manipulations is challenging in real-world settings. We introduce HybridGen, an automated framework that integrates Vision-Language Model (VLM) and hybrid planning. HybridGen uses a two-stage pipeline: first, VLM to parse expert demonstrations, decomposing tasks into expert-dependent (object-centric pose transformations for precise control) and plannable segments (synthesizing diverse trajectories via path planning); second, pose transformations substantially expand the first-stage data. Crucially, HybridGen generates a large volume of training data without requiring specific data formats, making it broadly applicable to a wide range of imitation learning algorithms, a characteristic which we also demonstrate empirically across multiple algorithms. Evaluations across seven tasks and their variants demonstrate that agents trained with HybridGen achieve substantial performance and generalization gains, averaging a 5% improvement over state-of-the-art methods. Notably, in the most challenging task variants, HybridGen achieves significant improvement, reaching a 59.7% average success rate, significantly outperforming Mimicgen's 49.5%. These results demonstrating its effectiveness and practicality.
- Abstract(参考訳): ロボット模倣学習の一般化を改善するためには,大規模かつ多様な実演データの取得が不可欠である。
しかし、複雑な操作のためにそのようなデータを生成することは、現実世界の設定では難しい。
ビジョンランゲージモデル(VLM)とハイブリッド計画を統合する自動化フレームワークであるHybridGenを紹介する。
HybridGenは2段階のパイプラインを使用する。まず、VLMを使って専門家によるデモンストレーションを解析し、タスクを専門家に依存した(正確に制御するためのオブジェクト中心のポーズ変換)と計画可能なセグメント(経路計画による多様なトラジェクトリの合成)に分解する。
重要なことは、HybridGenは特定のデータフォーマットを必要とせずに大量のトレーニングデータを生成し、幅広い模倣学習アルゴリズムに適用することができる。
7つのタスクとそのバリエーションによる評価では、HybridGenでトレーニングされたエージェントは、最先端のメソッドよりも平均5%改善され、大幅なパフォーマンスと一般化が達成されている。
特に、最も困難なタスク変種では、HybridGenは59.7%の平均的な成功率に達し、Mimicgenの49.5%を大きく上回っている。
これらの結果は、その効果と実用性を示している。
関連論文リスト
- MM-GEN: Enhancing Task Performance Through Targeted Multimodal Data Curation [31.21163360113923]
MM-Genはタスク固有の高品質な合成テキストを生成するスケーラブルな手法である。
MM-Genによって生成されたデータによる微調整VLMは、大幅な性能向上をもたらす。
人為的なキャプションデータと比較すると、MM-Genは最大1.6倍の改善を実現している。
論文 参考訳(メタデータ) (2025-01-07T21:55:56Z) - Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。
DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。
本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文 参考訳(メタデータ) (2024-10-31T07:28:22Z) - Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery [56.622854875204645]
本稿では,遺伝子・遺伝子相互作用の探索に先進的なトランスフォーマーモデルを活用する,データ駆動型計算ツールを活用した革新的なアプローチを提案する。
新たな重み付き多様化サンプリングアルゴリズムは、データセットのたった2パスで、各データサンプルの多様性スコアを算出する。
論文 参考訳(メタデータ) (2024-10-21T03:35:23Z) - UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。
データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - Speeding up 6-DoF Grasp Sampling with Quality-Diversity [1.533848041901807]
品質多様性(QD)アルゴリズムは、与えられた問題に対する多様なハイパフォーマンスなソリューションを得るために、一連のソリューションを最適化する。
標準物体に2本から5本の指を持つ4本のグリップで行った実験では、QDは一般的な方法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-10T10:58:54Z) - DIG-MILP: a Deep Instance Generator for Mixed-Integer Linear Programming
with Feasibility Guarantee [47.11455377400096]
混合整数線形プログラミング(MILP)は、多くの重要な産業アプリケーションにとって重要なNPハード問題である。
可変オートエンコーダ(VAE)に基づく深層生成フレームワークであるDIG-MILPを提案する。
論文 参考訳(メタデータ) (2023-10-20T03:45:29Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Robust Millimeter Beamforming via Self-Supervised Hybrid Deep Learning [47.0425902438356]
本稿では,ビームフォーミング自己教師ネットワークを提案し,様々なシナリオで異なる2種類のデータセットで検証する。
シミュレーションの結果,従来のDeepMIMOと新しいWAIR-Dデータセットの両方において,ハイブリッド学習を用いた自己教師型ネットワークが良好に動作することがわかった。
また,このようなハイブリッド学習の合理性を説明する原理を提案する。
論文 参考訳(メタデータ) (2023-03-09T05:30:53Z) - GraphLearner: Graph Node Clustering with Fully Learnable Augmentation [76.63963385662426]
Contrastive Deep Graph Clustering (CDGC)は、異なるクラスタにノードをグループ化するために、コントラスト学習のパワーを活用する。
我々は、GraphLearnerと呼ばれる、完全学習可能な拡張を備えたグラフノードクラスタリングを提案する。
学習可能な拡張器を導入し、CDGCのための高品質でタスク固有の拡張サンプルを生成する。
論文 参考訳(メタデータ) (2022-12-07T10:19:39Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。