論文の概要: MSG: Multi-Stream Generative Policies for Sample-Efficient Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2509.24956v1
- Date: Mon, 29 Sep 2025 15:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.104117
- Title: MSG: Multi-Stream Generative Policies for Sample-Efficient Robotic Manipulation
- Title(参考訳): MSG: サンプル効率の良いロボットマニピュレーションのためのマルチストリーム生成ポリシー
- Authors: Jan Ole von Hartz, Lukas Schweizer, Joschka Boedecker, Abhinav Valada,
- Abstract要約: マルチストリーム生成ポリシー(MSG)は、複数のオブジェクト中心ポリシーを推論時に組み合わせて一般化とサンプル効率を改善する。
MSGはモデルに依存しない推論のみであり、そのため様々な生成ポリシーや訓練パラダイムに広く適用されている。
- 参考スコア(独自算出の注目度): 17.246361335918866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative robot policies such as Flow Matching offer flexible, multi-modal policy learning but are sample-inefficient. Although object-centric policies improve sample efficiency, it does not resolve this limitation. In this work, we propose Multi-Stream Generative Policy (MSG), an inference-time composition framework that trains multiple object-centric policies and combines them at inference to improve generalization and sample efficiency. MSG is model-agnostic and inference-only, hence widely applicable to various generative policies and training paradigms. We perform extensive experiments both in simulation and on a real robot, demonstrating that our approach learns high-quality generative policies from as few as five demonstrations, resulting in a 95% reduction in demonstrations, and improves policy performance by 89 percent compared to single-stream approaches. Furthermore, we present comprehensive ablation studies on various composition strategies and provide practical recommendations for deployment. Finally, MSG enables zero-shot object instance transfer. We make our code publicly available at https://msg.cs.uni-freiburg.de.
- Abstract(参考訳): Flow Matchingのような生成ロボットポリシーは、フレキシブルでマルチモーダルなポリシー学習を提供するが、サンプル非効率である。
オブジェクト中心のポリシーはサンプル効率を改善するが、この制限は解決しない。
本稿では,マルチストリーム生成ポリシー(MSG)を提案する。マルチストリーム生成ポリシーは,複数のオブジェクト中心のポリシーをトレーニングし,それらを推論時に組み合わせて一般化とサンプル効率を向上させるための推論時合成フレームワークである。
MSGはモデルに依存しない推論のみであり、そのため様々な生成ポリシーや訓練パラダイムに広く適用されている。
シミュレーションと実ロボットの両方で広範な実験を行い、本手法は5つのデモから高品質な生成ポリシーを学習し、95%のデモを削減し、シングルストリームアプローチと比較してポリシー性能を99%改善することを示した。
さらに, 各種組成戦略に関する包括的アブレーション研究を行い, 展開の実践的推奨を行う。
最後に、MSGはゼロショットオブジェクトインスタンス転送を可能にする。
コードをhttps://msg.cs.uni-freiburg.deで公開しています。
関連論文リスト
- Reinforcement Learning for Flow-Matching Policies [9.308313682356285]
フローマッチングポリシーは、ジェネラリストロボティクスの強力なパラダイムとして登場した。
本研究は, 強化学習による流路整合政策の訓練を行い, 当初の実演政策を超越するものである。
論文 参考訳(メタデータ) (2025-07-20T18:15:18Z) - Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。
軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。
実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文 参考訳(メタデータ) (2025-03-17T14:28:08Z) - IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation [3.7584322469996896]
IMLEポリシーは、Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい行動クローニング手法である
複雑なマルチモーダルな振る舞いを学ぶ上で、ベースラインメソッドのパフォーマンスに合わせるために、最小限のデモから効果的に学習し、平均で38%のデータを必要とします。
シミュレーションおよび実環境における多様な操作タスクに対するアプローチを検証し、データ制約下で複雑な振る舞いをキャプチャする能力を示す。
論文 参考訳(メタデータ) (2025-02-17T23:22:49Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [3.49482137286472]
スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。
我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。
直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-04-05T15:52:34Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。