論文の概要: When does predictive inverse dynamics outperform behavior cloning?
- arxiv url: http://arxiv.org/abs/2601.21718v1
- Date: Thu, 29 Jan 2026 13:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.862514
- Title: When does predictive inverse dynamics outperform behavior cloning?
- Title(参考訳): 予測逆ダイナミクスはいつ行動クローニングより優れているか?
- Authors: Lukas Schäfer, Pallavi Choudhury, Abdelhak Lemkhenter, Chris Lovett, Somjit Nath, Luis França, Matheus Ribeiro Furtado de Mendonça, Alex Lamb, Riashat Islam, Siddhartha Sen, John Langford, Katja Hofmann, Sergio Valcarcel Macua,
- Abstract要約: 行動クローニング(BC)は事実上のオフラインの模倣学習手法であるが、専門家によるデモンストレーションが限定されている場合、しばしば失敗する。
最近の研究は、予測逆ダイナミクスモデル(PIDM)と呼ばれるアーキテクチャのクラスを導入し、将来の状態予測モデルと逆ダイナミクスモデル(IDM)を組み合わせる。
PIDMは、しばしばBCより優れているが、その利益の背景にある理由ははっきりしない。
- 参考スコア(独自算出の注目度): 19.979324853741957
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Behavior cloning (BC) is a practical offline imitation learning method, but it often fails when expert demonstrations are limited. Recent works have introduced a class of architectures named predictive inverse dynamics models (PIDM) that combine a future state predictor with an inverse dynamics model (IDM). While PIDM often outperforms BC, the reasons behind its benefits remain unclear. In this paper, we provide a theoretical explanation: PIDM introduces a bias-variance tradeoff. While predicting the future state introduces bias, conditioning the IDM on the prediction can significantly reduce variance. We establish conditions on the state predictor bias for PIDM to achieve lower prediction error and higher sample efficiency than BC, with the gap widening when additional data sources are available. We validate the theoretical insights empirically in 2D navigation tasks, where BC requires up to five times (three times on average) more demonstrations than PIDM to reach comparable performance; and in a complex 3D environment in a modern video game with high-dimensional visual inputs and stochastic transitions, where BC requires over 66\% more samples than PIDM.
- Abstract(参考訳): 行動クローニング(BC)は事実上のオフラインの模倣学習手法であるが、専門家によるデモンストレーションが限定されている場合、しばしば失敗する。
近年の研究では、予測逆ダイナミクスモデル (PIDM) と呼ばれるアーキテクチャのクラスを導入し、将来の状態予測モデルと逆ダイナミクスモデル (IDM) を組み合わせている。
PIDMは、しばしばBCより優れているが、その利益の背景にある理由ははっきりしない。
本稿では、PIDMがバイアス分散トレードオフを導入するという理論的説明を提供する。
将来の状態を予測するとバイアスが発生するが、予測に対するIMMの条件付けは分散を著しく減少させる。
PIDMの状態予測バイアスの条件を定め,BCよりも予測誤差が低く,サンプル効率が良くなり,新たなデータソースが利用可能になった場合のギャップが拡大する。
BCではPIDMよりも最大5倍(平均3倍)多くの実演が必要であり、また、高次元の視覚入力と確率遷移を持つ現代ビデオゲームでは、BCではPIDMよりも66倍以上のサンプルを必要とする複雑な3D環境において、理論的洞察を実証的に検証する。
関連論文リスト
- Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - CogDPM: Diffusion Probabilistic Models via Cognitive Predictive Coding [62.075029712357]
本研究は認知拡散確率モデル(CogDPM)を紹介する。
CogDPMは拡散モデルの階層的サンプリング能力に基づく精度推定法と拡散モデル固有の性質から推定される精度重み付きガイダンスを備える。
我々は,Universal Kindomの降水量と表面風速データセットを用いた実世界の予測タスクにCogDPMを適用した。
論文 参考訳(メタデータ) (2024-05-03T15:54:50Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - GDTS: Goal-Guided Diffusion Model with Tree Sampling for Multi-Modal Pedestrian Trajectory Prediction [15.731398013255179]
マルチモーダル軌道予測のための木サンプリングを用いたゴールガイド拡散モデルを提案する。
2段階のツリーサンプリングアルゴリズムが提案され、一般的な特徴を活用して推論時間を短縮し、マルチモーダル予測の精度を向上させる。
実験により,提案フレームワークは,公開データセットにおけるリアルタイム推論速度と同等の最先端性能を達成できることが実証された。
論文 参考訳(メタデータ) (2023-11-25T03:55:06Z) - Perceiver-based CDF Modeling for Time Series Forecasting [25.26713741799865]
本稿では,時系列データの累積分布関数(CDF)をモデル化するための新しいアーキテクチャであるPerceiver-CDFを提案する。
提案手法は,マルチモーダル時系列予測に適したコプラに基づくアテンション機構と,知覚アーキテクチャを組み合わせたものである。
単調かつマルチモーダルなベンチマークの実験は、最先端の手法よりも20%改善されていることを一貫して示している。
論文 参考訳(メタデータ) (2023-10-03T01:13:17Z) - Diffusion Causal Models for Counterfactual Estimation [18.438307666925425]
本稿では,観測画像データから因果構造を推定する作業について考察する。
Diff-SCMは,近年の発電エネルギーモデルの発展を基盤とした構造因果モデルである。
Diff-SCMはMNISTデータに基づくベースラインよりも現実的で最小限のデファクトアルを生成しており、ImageNetデータにも適用可能である。
論文 参考訳(メタデータ) (2022-02-21T12:23:01Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Exploring Bayesian Surprise to Prevent Overfitting and to Predict Model
Performance in Non-Intrusive Load Monitoring [25.32973996508579]
非侵入負荷モニタリング(Non-Intrusive Load Monitoring, NILM)は、集積信号のみに基づくシステムにおける構成的電気負荷の分離に焦点を当てた研究分野である。
予測分布(予測的サプライズ)と遷移確率(遷移的サプライズ)の間のサプライズ度を定量化する。
この研究は、データセットサイズに関するモデルパフォーマンスのリターンを減少させるポイントが存在するという明確な証拠を提供する。
論文 参考訳(メタデータ) (2020-09-16T15:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。