論文の概要: Much Ado About Noising: Dispelling the Myths of Generative Robotic Control
- arxiv url: http://arxiv.org/abs/2512.01809v1
- Date: Mon, 01 Dec 2025 15:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.934251
- Title: Much Ado About Noising: Dispelling the Myths of Generative Robotic Control
- Title(参考訳): 騒音をよく聞く: 生成的ロボット制御の神話を解き放つ
- Authors: Chaoyi Pan, Giri Anantharaman, Nai-Chieh Huang, Claire Jin, Daniel Pfrommer, Chenyang Yuan, Frank Permenter, Guannan Qu, Nicholas Boffi, Guanya Shi, Max Simchowitz,
- Abstract要約: 我々は、一般的な行動クローニングベンチマークに基づいて、一般的な生成制御ポリシー(GCP)を評価する。
GCPは、マルチモダリティを捉えたり、より複雑な観察から行動へのマッピングを表現する能力にその成功を負わないことが分かりました。
この結果から,GCPの分布適合成分は一般的に信じられているほど健全ではないことが示唆された。
- 参考スコア(独自算出の注目度): 26.71643888212995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models, like flows and diffusions, have recently emerged as popular and efficacious policy parameterizations in robotics. There has been much speculation as to the factors underlying their successes, ranging from capturing multi-modal action distribution to expressing more complex behaviors. In this work, we perform a comprehensive evaluation of popular generative control policies (GCPs) on common behavior cloning (BC) benchmarks. We find that GCPs do not owe their success to their ability to capture multi-modality or to express more complex observation-to-action mappings. Instead, we find that their advantage stems from iterative computation, as long as intermediate steps are supervised during training and this supervision is paired with a suitable level of stochasticity. As a validation of our findings, we show that a minimum iterative policy (MIP), a lightweight two-step regression-based policy, essentially matches the performance of flow GCPs, and often outperforms distilled shortcut models. Our results suggest that the distribution-fitting component of GCPs is less salient than commonly believed, and point toward new design spaces focusing solely on control performance. Project page: https://simchowitzlabpublic.github.io/much-ado-about-noising-project/
- Abstract(参考訳): フローや拡散のような生成モデルは、最近、ロボット工学において人気があり、効果的なポリシーパラメータ化として現れている。
成功の背景には、マルチモーダルな行動分布の取得からより複雑な振る舞いの表現まで、多くの憶測がある。
本研究では,共通行動クローニング(BC)ベンチマークを用いて,一般的な生成制御ポリシ(GCP)を包括的に評価する。
GCPは、マルチモダリティを捉えたり、より複雑な観察から行動へのマッピングを表現する能力にその成功を負わないことが分かりました。
その代わりに、トレーニング中に中間ステップが監督され、この監視が適切な確率レベルとペアリングされる限り、それらの利点は反復計算に起因していることが分かる。
この結果の検証として,2段階回帰に基づく軽量なポリシーである最小反復ポリシー (MIP) がフローGCPの性能と本質的に一致し,蒸留ショートカットモデルを上回る結果が得られた。
この結果から,GCPの分布適合成分は一般的に信じられているほど健全ではないことが示唆され,制御性能にのみ焦点をあてた新しい設計空間をめざす。
プロジェクトページ:https://simchowitzlabpublic.github.io/much-ado-about-noising-project/
関連論文リスト
- Improving Generative Behavior Cloning via Self-Guidance and Adaptive Chunking [29.920087317401396]
ジェネレーティブ・ビヘイビア・クローン(Generative Behavior Cloning)は、ロボット学習のためのシンプルで効果的なフレームワークである。
拡散政策の一貫性と反応性を高めるための2つの新しい手法を提案する。
提案手法は,多種多様なシミュレーションおよび実世界のロボット操作タスクにおいて,GBCの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-14T11:16:34Z) - Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning [34.25769740497309]
GenPOは、正確な拡散反転を利用して、可逆なアクションマッピングを構築する、生成ポリシー最適化フレームワークである。
GenPOは、大規模な並列化トレーニングと実世界のロボット展開の可能性を解き放ち、拡散ポリシーをオンプレミスのRLにうまく統合する最初の方法である。
論文 参考訳(メタデータ) (2025-05-24T15:57:07Z) - IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation [3.7584322469996896]
IMLEポリシーは、Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい行動クローニング手法である
複雑なマルチモーダルな振る舞いを学ぶ上で、ベースラインメソッドのパフォーマンスに合わせるために、最小限のデモから効果的に学習し、平均で38%のデータを必要とします。
シミュレーションおよび実環境における多様な操作タスクに対するアプローチを検証し、データ制約下で複雑な振る舞いをキャプチャする能力を示す。
論文 参考訳(メタデータ) (2025-02-17T23:22:49Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。