論文の概要: Liquid Networks with Mixture Density Heads for Efficient Imitation Learning
- arxiv url: http://arxiv.org/abs/2603.27058v1
- Date: Sat, 28 Mar 2026 00:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.75919
- Title: Liquid Networks with Mixture Density Heads for Efficient Imitation Learning
- Title(参考訳): 混合密度ヘッドを用いた効率的な模倣学習のための液体ネットワーク
- Authors: Nikolaus Correll,
- Abstract要約: 我々は,Push-T,RoboMimic Can,PointMazeの拡散ポリシに対して,混合密度ヘッドと液体ニューラルネットワークを比較した。
タスク全体では、液体ポリシーはパラメータの約半分を使い、2.4倍低いオフライン予測エラーを達成し、推論では1.8倍高速に実行される。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We compare liquid neural networks with mixture density heads against diffusion policies on Push-T, RoboMimic Can, and PointMaze under a shared-backbone comparison protocol that isolates policy-head effects under matched inputs, training budgets, and evaluation settings. Across tasks, liquid policies use roughly half the parameters (4.3M vs. 8.6M), achieve 2.4x lower offline prediction error, and run 1.8 faster at inference. In sample-efficiency experiments spanning 1% to 46.42% of training data, liquid models remain consistently more robust, with especially large gains in low-data and medium-data regimes. Closed-loop results on Push-T and PointMaze are directionally consistent with offline rankings but noisier, indicating that strong offline density modeling helps deployment while not fully determining closed-loop success. Overall, liquid recurrent multimodal policies provide a compact and practical alternative to iterative denoising for imitation learning.
- Abstract(参考訳): 我々は,Push-T,RoboMimic Can,PointMazeの拡散ポリシに対して混合密度ヘッドと液体ニューラルネットワークを比較し,一致した入力,トレーニング予算,評価設定下でのポリシ-ヘッド効果を分離する共有バックボーン比較プロトコルを提案する。
タスク全体では、液体ポリシーはパラメータの約半分(4.3M vs. 8.6M)を使い、2.4倍のオフライン予測誤差を達成し、推論では1.8倍高速に実行される。
トレーニングデータの1%から46.42%に及ぶサンプル効率実験では、液体モデルの方が一貫して堅牢であり、特に低データおよび中データ体制では大きな進歩が見られる。
Push-TとPointMazeのクローズドループの結果は、オフラインランキングと方向整合性があるが、ノイズが多く、強いオフライン密度モデリングはクローズドループの成功を完全に決定せず、デプロイメントに役立つことを示している。
全体として、リカレントなマルチモーダルポリシーは、模倣学習のための反復的認知のコンパクトで実践的な代替手段を提供する。
関連論文リスト
- MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - DreamPRM-1.5: Unlocking the Potential of Each Instance for Multimodal Process Reward Model Training [28.02129783121819]
DreamPRM-1.5は、インスタンスレベルの再重み付けフレームワークで、双方向の最適化を通じて、トレーニング例毎に適応的な重み付けを割り当てる。
MMMU検証セットで84.6の精度、R-Bench-Vで31.3の精度を実現し、リードバックボーンと組み合わせると、公開マルチモーダル推論リーダーボードで1位の結果が得られる。
論文 参考訳(メタデータ) (2025-09-05T23:42:01Z) - Aioli: A Unified Optimization Framework for Language Model Data Mixing [74.50480703834508]
提案手法は, 単層サンプリングベースラインを平均的なテストパープレキシティで一貫した性能を発揮できないことを示す。
我々は、Aioliという新しいオンライン手法を導き、トレーニング全体を通して法パラメータの混合を直接推定し、それらを用いて比率を動的に調整する。
論文 参考訳(メタデータ) (2024-11-08T17:50:24Z) - SWAP: Sparse Entropic Wasserstein Regression for Robust Network Pruning [9.60349706518775]
本研究では,ニューラルネットワークプルーニングにおける経験的漁獲情報行列の計算における不正確な勾配問題に対処する。
本稿では,最適輸送問題の幾何学的特性を活かした,エントロピー的ワッサースタイン回帰(EWR)の定式化であるSWAPを紹介する。
提案手法は,ネットワークパラメータの4分の1未満のMobileNetV1において,精度が6%向上し,テスト損失が8%向上した。
論文 参考訳(メタデータ) (2023-10-07T21:15:32Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。