論文の概要: Causal Flow Q-Learning for Robust Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.02847v1
- Date: Mon, 02 Feb 2026 21:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.104819
- Title: Causal Flow Q-Learning for Robust Offline Reinforcement Learning
- Title(参考訳): ロバストオフライン強化学習のための因果流Qラーニング
- Authors: Mingxuan Li, Junzhe Zhang, Elias Bareinboim,
- Abstract要約: 構築された実演から表現型フローマッチングポリシーを学習する実践的実装を提案する。
提案手法は,最先端のオフラインRL法よりも120%の成功率を達成する。
- 参考スコア(独自算出の注目度): 53.63254824501714
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Expressive policies based on flow-matching have been successfully applied in reinforcement learning (RL) more recently due to their ability to model complex action distributions from offline data. These algorithms build on standard policy gradients, which assume that there is no unmeasured confounding in the data. However, this condition does not necessarily hold for pixel-based demonstrations when a mismatch exists between the demonstrator's and the learner's sensory capabilities, leading to implicit confounding biases in offline data. We address the challenge by investigating the problem of confounded observations in offline RL from a causal perspective. We develop a novel causal offline RL objective that optimizes policies' worst-case performance that may arise due to confounding biases. Based on this new objective, we introduce a practical implementation that learns expressive flow-matching policies from confounded demonstrations, employing a deep discriminator to assess the discrepancy between the target policy and the nominal behavioral policy. Experiments across 25 pixel-based tasks demonstrate that our proposed confounding-robust augmentation procedure achieves a success rate 120\% that of confounding-unaware, state-of-the-art offline RL methods.
- Abstract(参考訳): フローマッチングに基づく表現的ポリシーは、オフラインデータから複雑なアクション分布をモデル化できるため、近年では強化学習(RL)にうまく適用されている。
これらのアルゴリズムは標準ポリシー勾配に基づいて構築され、データに未測定の欠点がないと仮定する。
しかし、この条件は、デモンストレータと学習者の感覚能力の間にミスマッチが存在する場合の画素ベースのデモンストレーションに必ずしも当てはまらないため、オフラインデータに暗黙のバイアスが生じる。
本稿では、因果的視点から、オフラインRLにおける統合観測の問題点を考察することによって、この問題に対処する。
我々は,不確定なバイアスによって生じる可能性のあるポリシの最悪のパフォーマンスを最適化する,新たな因果的オフラインRL目標を開発する。
この新たな目的に基づき,本研究では,目標方針と名目行動方針の相違性を評価するために,深層判別器を用いて,構築された実演から表現的フローマッチングポリシーを学習する実践的実装を提案する。
25ピクセルのタスクを対象とした実験により,提案手法は,未認識で最先端のオフラインRL法よりも120\%の成功率が得られることが示された。
関連論文リスト
- DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning [22.323173093804897]
オフライン強化学習は、環境と対話することなく、事前にコンパイルされたオフラインデータセットから最適なポリシーを学ぶことができる。
最近の研究はGAN(Generative Adversarial Network)を用いてこの問題に対処している。
拡散にインスパイアされたDiffusion Policies with Generative Adversarial Networks (DiffPoGAN) という新しいオフラインRL手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T13:15:40Z) - CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning [1.7205106391379026]
近年の拡散政策における状態再構成特徴学習を取り入れた新しい手法を提案する。
本手法は,OOD状態による分散シフトを軽減するために,一般化可能な状態表現の学習を促進する。
論文 参考訳(メタデータ) (2023-07-10T17:34:23Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。