論文の概要: PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning
- arxiv url: http://arxiv.org/abs/2602.02396v1
- Date: Mon, 02 Feb 2026 17:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.340561
- Title: PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning
- Title(参考訳): PRISM:シングルパス多感覚模倣学習のための高性能RS-IMLE
- Authors: Amisha Bhaskar, Pratap Tokekar, Stefano Di Cairano, Alexander Schperberg,
- Abstract要約: PRISMは,IMLEのバッチ・グロバル・リジェクション・サンプリングに基づく単一パスポリシーである。
PRISMは、Performerアーキテクチャを用いた線形アテンション発生器と時間的マルチセンサエンコーダを結合する。
7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータを用いたテーブルトップ操作など,PRISMの有効性を実証する。
- 参考スコア(独自算出の注目度): 51.24484551729328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic imitation learning typically requires models that capture multimodal action distributions while operating at real-time control rates and accommodating multiple sensing modalities. Although recent generative approaches such as diffusion models, flow matching, and Implicit Maximum Likelihood Estimation (IMLE) have achieved promising results, they often satisfy only a subset of these requirements. To address this, we introduce PRISM, a single-pass policy based on a batch-global rejection-sampling variant of IMLE. PRISM couples a temporal multisensory encoder (integrating RGB, depth, tactile, audio, and proprioception) with a linear-attention generator using a Performer architecture. We demonstrate the efficacy of PRISM on a diverse real-world hardware suite, including loco-manipulation using a Unitree Go2 with a 7-DoF arm D1 and tabletop manipulation with a UR5 manipulator. Across challenging physical tasks such as pre-manipulation parking, high-precision insertion, and multi-object pick-and-place, PRISM outperforms state-of-the-art diffusion policies by 10-25% in success rate while maintaining high-frequency (30-50 Hz) closed-loop control. We further validate our approach on large-scale simulation benchmarks, including CALVIN, MetaWorld, and Robomimic. In CALVIN (10% data split), PRISM improves success rates by approximately 25% over diffusion and approximately 20% over flow matching, while simultaneously reducing trajectory jerk by 20x-50x. These results position PRISM as a fast, accurate, and multisensory imitation policy that retains multimodal action coverage without the latency of iterative sampling.
- Abstract(参考訳): ロボット模倣学習は、通常、リアルタイムの制御速度で動作しながら複数のモードの動作分布をキャプチャし、複数の感覚モーダルを調節するモデルを必要とする。
拡散モデル,フローマッチング,Implicit Maximum Likelihood Estimation (IMLE) などの最近の生成的アプローチは有望な結果を得たが,これらの要件のサブセットのみを満たすことが多い。
これを解決するため,IMLEのバッチ・グロバル・リジェクション・サンプリング・バリアントに基づくシングルパスポリシーであるPRISMを導入する。
PRISMは、時間的マルチセンサーエンコーダ(RGB、深さ、触覚、オーディオ、プロプライエセプション)とPerformerアーキテクチャを使った線形アテンションジェネレータを結合する。
7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータによるテーブルトップ操作など,PRISMの有効性を実証する。
プリ・マニピュレーション・パーキング、高精度挿入、多目的ピック・アンド・プレイスといった難易度の高い物理的タスクにおいて、PRISMは高周波(30-50Hz)クローズドループ制御を維持しながら、10-25%の成功率で最先端の拡散ポリシーを上回ります。
CALVIN, MetaWorld, Robomimic など,大規模シミュレーションベンチマークのアプローチをさらに検証する。
CALVIN(10%のデータ分割)では、PRISMは拡散よりも約25%、フローマッチングより約20%向上し、同時に軌道ジャークを20x-50x削減する。
これらの結果から、PRISMは反復サンプリングのレイテンシを伴わずにマルチモーダルな動作カバレッジを保持する高速で正確で多感的な模倣ポリシーとして位置づけられる。
関連論文リスト
- Revealing the Truth with ConLLM for Detecting Multi-Modal Deepfakes [16.165111143799617]
ConLLMは、堅牢なマルチモーダルディープフェイク検出のためのハイブリッドフレームワークである。
オーディオディープフェイクEERを最大50%削減し、ビデオの精度を最大8%改善し、オーディオ視覚タスクで約9%の精度向上を実現している。
論文 参考訳(メタデータ) (2026-01-24T17:07:51Z) - Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency [60.74505433956616]
連続時間一貫性モデル(sCM)は理論的に原理化され、学術規模の拡散を加速するために実証的に強力である。
まず並列性互換なFlashAttention-2 JVPカーネルを開発し、100億以上のパラメータと高次元ビデオタスクを持つモデル上でsCMトレーニングを可能にする。
本稿では, スコア蒸留を長軸正則化器として組み込んだスコア規則化連続時間一貫性モデル(rCM)を提案する。
論文 参考訳(メタデータ) (2025-10-09T16:45:30Z) - DM1: MeanFlow with Dispersive Regularization for 1-Step Robotic Manipulation [23.382067451764396]
フローベースの生成モデルは、アクションの分布を学習するための有望なソリューションとして現れてきた。
既存のフローベースのポリシーは、表現の崩壊、類似した視覚的表現を区別できないこと、そして正確な操作タスクの失敗に悩まされる。
本稿では,分散正規化をMeanFlowに統合した新しいフローマッチングフレームワークDM1を提案する。
論文 参考訳(メタデータ) (2025-10-09T07:12:20Z) - VFP: Variational Flow-Matching Policy for Multi-Modal Robot Manipulation [3.986404588605909]
可変フローマッチングポリシー(VFP)は、タスクレベルとトラジェクトリレベルの両方のマルチモーダリティをキャプチャするフローマッチングポリシーである。
VFPは、標準的なフローベースベースラインよりもタスク成功率を49%向上させる。
論文 参考訳(メタデータ) (2025-08-03T07:23:02Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。