論文の概要: Learning with Imperfect Models: When Multi-step Prediction Mitigates Compounding Error
- arxiv url: http://arxiv.org/abs/2504.01766v1
- Date: Wed, 02 Apr 2025 14:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:17:53.000596
- Title: Learning with Imperfect Models: When Multi-step Prediction Mitigates Compounding Error
- Title(参考訳): 不完全モデルによる学習:複合誤差を緩和する多段階予測
- Authors: Anne Somalwar, Bruce D. Lee, George J. Pappas, Nikolai Matni,
- Abstract要約: 小さな予測ミスが時間の経過とともに蓄積される複合的エラーは、学習ベースの制御において大きな課題となる。
複合化エラーを軽減する1つのアプローチは、シングルステップモデルの自己回帰ロールアウトに頼るのではなく、マルチステップ予測を直接訓練することである。
モデルクラスが適切に特定され,システムダイナミクスを正確に捉えている場合,単一ステップモデルの方が予測誤差が低いことを示す。
一方、モデルクラスが部分可観測性のために不特定である場合、直接多段階予測器はバイアスを著しく低減し、単一ステップのアプローチより優れている。
- 参考スコア(独自算出の注目度): 25.387541996071093
- License:
- Abstract: Compounding error, where small prediction mistakes accumulate over time, presents a major challenge in learning-based control. For example, this issue often limits the performance of model-based reinforcement learning and imitation learning. One common approach to mitigate compounding error is to train multi-step predictors directly, rather than relying on autoregressive rollout of a single-step model. However, it is not well understood when the benefits of multi-step prediction outweigh the added complexity of learning a more complicated model. In this work, we provide a rigorous analysis of this trade-off in the context of linear dynamical systems. We show that when the model class is well-specified and accurately captures the system dynamics, single-step models achieve lower asymptotic prediction error. On the other hand, when the model class is misspecified due to partial observability, direct multi-step predictors can significantly reduce bias and thus outperform single-step approaches. These theoretical results are supported by numerical experiments, wherein we also (a) empirically evaluate an intermediate strategy which trains a single-step model using a multi-step loss and (b) evaluate performance of single step and multi-step predictors in a closed loop control setting.
- Abstract(参考訳): 小さな予測ミスが時間の経過とともに蓄積される複合的エラーは、学習ベースの制御において大きな課題となる。
例えば、この問題はモデルに基づく強化学習と模倣学習のパフォーマンスを制限することが多い。
複合化エラーを軽減する一般的なアプローチの1つは、シングルステップモデルの自己回帰ロールアウトに頼るのではなく、マルチステップ予測器を直接訓練することである。
しかし、多段階予測の利点が、より複雑なモデルを学ぶことの複雑さを上回り、十分に理解されていない。
本研究では、線形力学系の文脈におけるこのトレードオフを厳密に分析する。
モデルクラスが適切に特定され、システムダイナミクスを正確に捉えている場合、単一ステップモデルがより低い漸近予測誤差を達成することを示す。
一方、モデルクラスが部分可観測性のために不特定である場合、直接多段階予測器はバイアスを著しく低減し、単一ステップのアプローチより優れている。
これらの理論的結果は数値実験によって支えられている。
(a)多段損失を用いて一段モデルを訓練し、中間戦略を実証的に評価する
b) 閉ループ制御設定において, 単一ステップと複数ステップ予測器の性能を評価する。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning [31.8260779160424]
学習力学モデルの改善に伴い,一般的なアルゴリズムがどのように機能するかを検討する。
エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Learning (RAVL)を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:38:00Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。
下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:10:11Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Understanding Double Descent Requires a Fine-Grained Bias-Variance
Decomposition [34.235007566913396]
ラベルに関連付けられた用語への分散の解釈可能で対称的な分解について述べる。
バイアスはネットワーク幅とともに単調に減少するが、分散項は非単調な振る舞いを示す。
我々はまた、著しく豊かな現象論も分析する。
論文 参考訳(メタデータ) (2020-11-04T21:04:02Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。