論文の概要: Temporal Difference Flows
- arxiv url: http://arxiv.org/abs/2503.09817v1
- Date: Wed, 12 Mar 2025 20:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:55:19.778526
- Title: Temporal Difference Flows
- Title(参考訳): 時間差流
- Authors: Jesse Farebrother, Matteo Pirotta, Andrea Tirinzoni, Rémi Munos, Alessandro Lazaric, Ahmed Touati,
- Abstract要約: Geometric Horizon Models (GHMs) は、将来の状態を直接予測することで、魅力的な代替手段を提供する。
既存の手法は、列車時のブートストラップ予測や、長い地平線で高品質な予測を生成するのに苦慮している。
本稿では,従来の手法の水平長の5倍以上の精度で正確なGHMを学習するために,確率経路上の新しいベルマン方程式の構造を利用した時間差流(TD-Flow)を提案する。
- 参考スコア(独自算出の注目度): 82.24174052059352
- License:
- Abstract: Predictive models of the future are fundamental for an agent's ability to reason and plan. A common strategy learns a world model and unrolls it step-by-step at inference, where small errors can rapidly compound. Geometric Horizon Models (GHMs) offer a compelling alternative by directly making predictions of future states, avoiding cumulative inference errors. While GHMs can be conveniently learned by a generative analog to temporal difference (TD) learning, existing methods are negatively affected by bootstrapping predictions at train time and struggle to generate high-quality predictions at long horizons. This paper introduces Temporal Difference Flows (TD-Flow), which leverages the structure of a novel Bellman equation on probability paths alongside flow-matching techniques to learn accurate GHMs at over 5x the horizon length of prior methods. Theoretically, we establish a new convergence result and primarily attribute TD-Flow's efficacy to reduced gradient variance during training. We further show that similar arguments can be extended to diffusion-based methods. Empirically, we validate TD-Flow across a diverse set of domains on both generative metrics and downstream tasks including policy evaluation. Moreover, integrating TD-Flow with recent behavior foundation models for planning over pre-trained policies demonstrates substantial performance gains, underscoring its promise for long-horizon decision-making.
- Abstract(参考訳): 未来の予測モデルは、エージェントの推論と計画の能力の基礎である。
一般的な戦略は世界モデルを学び、推論時に段階的に展開する。
Geometric Horizon Models (GHMs) は、将来の状態を直接予測し、累積的推論エラーを避けることで、魅力的な代替手段を提供する。
GHMは時間差学習(TD)学習に類似した生成的アナログによって便利に学習できるが、既存の手法は列車時のブートストラップ予測によって負の影響を受け、長い地平線で高品質な予測を生成するのに苦慮している。
本稿では,従来の手法の水平長の5倍以上の精度で正確なGHMを学習するために,確率経路上の新しいベルマン方程式の構造を利用した時間差流(TD-Flow)を提案する。
理論的には,新たな収束結果を確立し,TD-Flowの有効性をトレーニング中の勾配分散の低減に寄与する。
さらに、同様の議論を拡散法に拡張できることを示す。
提案手法は,TD-Flowを多種多様な領域にまたがって,政策評価を含む下流タスクと生成指標の両方で検証する。
さらに、TD-Flowと最近の行動基盤モデルを統合することで、事前訓練されたポリシーを計画し、パフォーマンスを大幅に向上させることができる。
関連論文リスト
- Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Bayesian Deep Learning for Remaining Useful Life Estimation via Stein
Variational Gradient Descent [14.784809634505903]
本研究では,スタイン変分勾配勾配を用いたベイズ学習モデルが収束速度と予測性能に対して一貫して優れていたことを示す。
ベイズモデルが提供する不確実性情報に基づく性能向上手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T02:21:06Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Reconstructing Graph Diffusion History from a Single Snapshot [87.20550495678907]
A single SnapsHot (DASH) から拡散履歴を再構築するための新しいバリセンターの定式化を提案する。
本研究では,拡散パラメータ推定のNP硬度により,拡散パラメータの推定誤差が避けられないことを証明する。
また、DITTO(Diffusion hitting Times with Optimal proposal)という効果的な解法も開発している。
論文 参考訳(メタデータ) (2023-06-01T09:39:32Z) - On the Statistical Benefits of Temporal Difference Learning [6.408072565019087]
アクションのデータセットと結果の長期的な報酬が与えられた場合、直接推定アプローチは値関数に適合する。
直感的な逆軌道プーリング係数は, 平均二乗誤差の減少率を完全に特徴付けることを示す。
2つの状態における値対号差の推定が劇的に改善できることを実証する。
論文 参考訳(メタデータ) (2023-01-30T21:02:25Z) - Future Gradient Descent for Adapting the Temporal Shifting Data
Distribution in Online Recommendation Systems [30.88268793277078]
トレーニング用データ分布の勾配情報を予測するメタ・フューチャー・グラデーション・ジェネレータを学習する。
Batch Updateと比較すると,提案アルゴリズムは時間領域の一般化誤差が小さいことを示唆している。
論文 参考訳(メタデータ) (2022-09-02T15:55:31Z) - Probabilistic forecasting for geosteering in fluvial successions using a
generative adversarial network [0.0]
リアルタイムデータに基づく高速更新は、プレドリルモデルで高い不確実性を持つ複雑な貯水池での掘削に不可欠である。
本稿では, フラビアル継承の地質学的に一貫した2次元断面を再現するためのGAN(generative adversarial Deep Neural Network)を提案する。
この手法は不確実性を低減し, 掘削ビットより500m先にある主要な地質特性を正確に予測する。
論文 参考訳(メタデータ) (2022-07-04T12:52:38Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Bridging the Gap Between Training and Inference for Spatio-Temporal
Forecasting [16.06369357595426]
本稿では,S-temporal sequence forecastingのトレーニングと推論のギャップを埋めるために,時間的プログレッシブ・グロース・サンプリングというカリキュラムベースの新しい戦略を提案する。
実験結果から,提案手法は長期依存をモデル化し,2つの競合データセットに対するベースラインアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2020-05-19T10:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。