論文の概要: Flow Models for Unbounded and Geometry-Aware Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.04310v1
- Date: Wed, 07 May 2025 10:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.042537
- Title: Flow Models for Unbounded and Geometry-Aware Distributional Reinforcement Learning
- Title(参考訳): 非有界・幾何学的分布強化学習のための流れモデル
- Authors: Simo Alami C., Rim Kaddah, Jesse Read, Marie-Paule Cani,
- Abstract要約: 本稿では,正規化フローを用いて分布をモデル化する分散強化学習(DistRL)の新しいアーキテクチャを提案する。
このアプローチは、リターン分布に対するフレキシブルで非バウンドなサポートを可能にする。
提案手法は,Quantile ベースの手法と競合しながら,PDF ベースのモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 5.628557798049032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new architecture for Distributional Reinforcement Learning (DistRL) that models return distributions using normalizing flows. This approach enables flexible, unbounded support for return distributions, in contrast to categorical approaches like C51 that rely on fixed or bounded representations. It also offers richer modeling capacity to capture multi-modality, skewness, and tail behavior than quantile based approaches. Our method is significantly more parameter-efficient than categorical approaches. Standard metrics used to train existing models like KL divergence or Wasserstein distance either are scale insensitive or have biased sample gradients, especially when return supports do not overlap. To address this, we propose a novel surrogate for the Cram\`er distance, that is geometry-aware and computable directly from the return distribution's PDF, avoiding the costly CDF computation. We test our model on the ATARI-5 sub-benchmark and show that our approach outperforms PDF based models while remaining competitive with quantile based methods.
- Abstract(参考訳): 本稿では,正規化フローを用いて分布をモデル化する分散強化学習(DistRL)の新しいアーキテクチャを提案する。
このアプローチは、固定表現や有界表現に依存するC51のようなカテゴリ的アプローチとは対照的に、フレキシブルで非有界な戻り分布のサポートを可能にする。
また、量子的アプローチよりも多モード性、歪み、尾の挙動を捉えるためのリッチなモデリング能力も提供する。
我々の手法はカテゴリー的アプローチよりもはるかにパラメータ効率が高い。
KL発散やワッサーシュタイン距離といった既存のモデルのトレーニングに使用される標準メトリクスは、スケールに敏感であるか、偏りのあるサンプル勾配を持つかのいずれかであり、特にリターンサポートが重複しない場合である。
そこで本研究では,CDF計算のコストを抑えて,戻り分布のPDFから直接,幾何学的かつ計算可能なCram\`er距離の新たなサロゲートを提案する。
我々はATARI-5サブベンチマークで本モデルを検証し,提案手法が定量化手法と競合しながら,PDFベースのモデルより優れていることを示す。
関連論文リスト
- Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。
本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-04T17:46:51Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - An iterative multi-fidelity approach for model order reduction of
multi-dimensional input parametric PDE systems [0.0]
多次元入力パラメトリック空間を用いた大規模PDEシステムの縮小のためのサンプリングパラメトリック戦略を提案する。
これはパラメトリック空間全体の低忠実度モデルを効率的なサンプリング戦略を用いてサンプリングポイントに利用することで達成される。
提案手法は,低忠実度モデルを用いてソリューションデータベースを同化するため,オフライン段階での計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2023-01-23T15:25:58Z) - Online Probabilistic Model Identification using Adaptive Recursive MCMC [8.465242072268019]
適応再帰的マルコフ連鎖モンテカルロ法(ARMCMC)を提案する。
モデルパラメータの確率密度関数全体を計算しながら、従来のオンライン手法の欠点を解消する。
本研究では,ソフト曲げアクチュエータとハント・クロスリー動的モデルを用いてパラメータ推定を行った。
論文 参考訳(メタデータ) (2022-10-23T02:06:48Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Merging Models with Fisher-Weighted Averaging [24.698591753644077]
我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。
提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。
マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-18T17:59:35Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Probabilistic Circuits for Variational Inference in Discrete Graphical
Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。
エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。
Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。
選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2020-10-22T05:04:38Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。