論文の概要: Iterative Compositional Data Generation for Robot Control
- arxiv url: http://arxiv.org/abs/2512.10891v1
- Date: Thu, 11 Dec 2025 18:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.516507
- Title: Iterative Compositional Data Generation for Robot Control
- Title(参考訳): ロボット制御のための反復合成データ生成
- Authors: Anh-Quan Pham, Marcel Hussing, Shubhankar P. Patankar, Dani S. Bassett, Jorge Mendez-Mendez, Eric Eaton,
- Abstract要約: 本稿では,ロボット,オブジェクト,障害物,客観的なコンポーネントへの遷移を分解する意味構成拡散変換器を提案する。
モデルがゼロショットで高品質な遷移を生成できることを示し,未知のタスクの組み合わせに対する制御ポリシーを学習できることを示した。
- 参考スコア(独自算出の注目度): 8.888011063034517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting robotic manipulation data is expensive, making it impractical to acquire demonstrations for the combinatorially large space of tasks that arise in multi-object, multi-robot, and multi-environment settings. While recent generative models can synthesize useful data for individual tasks, they do not exploit the compositional structure of robotic domains and struggle to generalize to unseen task combinations. We propose a semantic compositional diffusion transformer that factorizes transitions into robot-, object-, obstacle-, and objective-specific components and learns their interactions through attention. Once trained on a limited subset of tasks, we show that our model can zero-shot generate high-quality transitions from which we can learn control policies for unseen task combinations. Then, we introduce an iterative self-improvement procedure in which synthetic data is validated via offline reinforcement learning and incorporated into subsequent training rounds. Our approach substantially improves zero-shot performance over monolithic and hard-coded compositional baselines, ultimately solving nearly all held-out tasks and demonstrating the emergence of meaningful compositional structure in the learned representations.
- Abstract(参考訳): ロボット操作データの収集は高価であり、マルチオブジェクト、マルチロボット、マルチ環境設定で発生する、組合せ的に大きなタスク空間のデモを取得することは不可能である。
最近の生成モデルは、個々のタスクに有用なデータを合成することができるが、ロボットドメインの構成構造を活用せず、目に見えないタスクの組み合わせに一般化するのに苦労している。
本稿では,ロボット,物体,障害物,客観的なコンポーネントへの遷移を分解し,その相互作用を注意を通して学習する意味的構成拡散変換器を提案する。
タスクの限られたサブセットで訓練すると、我々のモデルは高品質なトランジションをゼロショットで生成できることを示し、そこから見えないタスクの組み合わせの制御ポリシーを学ぶことができる。
次に,オフライン強化学習を通じて合成データを検証し,その後の訓練ラウンドに組み込む反復自己改善手法を提案する。
提案手法はモノリシックおよびハードコード構成ベースラインに対するゼロショット性能を大幅に向上させ,究極的にはほとんどすべての保持されたタスクを解決し,学習された表現に意味のある構成構造の出現を示す。
関連論文リスト
- Learning Causal Structure Distributions for Robust Planning [53.753366558072806]
構造情報の不確実性を考慮しながら,機能的関係を学習することで,より堅牢な力学モデルがもたらされることがわかった。
これは、因果構造を無視し、ロボットシステムにおける相互作用の空間性を活用するのに失敗する一般的なモデル学習手法とは対照的である。
本稿では,本モデルを用いてロボットの力学を学習し,新しい環境下での新たな作業を行うためのサンプリング・ベース・プランナーを併用することを提案する。
論文 参考訳(メタデータ) (2025-08-08T22:43:17Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Efficient and Robust Training of Dense Object Nets for Multi-Object
Robot Manipulation [8.321536457963655]
我々はDense Object Nets(DON)の堅牢で効率的なトレーニングのためのフレームワークを提案する。
本研究は,多目的データを用いた学習に重点を置いている。
実世界のロボットによる把握作業において,提案手法の頑健さと精度を実証する。
論文 参考訳(メタデータ) (2022-06-24T08:24:42Z) - Graph-based Reinforcement Learning meets Mixed Integer Programs: An
application to 3D robot assembly discovery [34.25379651790627]
我々は、テトリスのような構造ブロックとロボットマニピュレータを用いて、スクラッチから完全に定義済みの任意のターゲット構造を構築するという課題に対処する。
我々の新しい階層的アプローチは、タスク全体を相互に利益をもたらす3つの実行可能なレベルに効率的に分解することを目的としています。
論文 参考訳(メタデータ) (2022-03-08T14:44:51Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。