論文の概要: Taming OOD Actions for Offline Reinforcement Learning: An Advantage-Based Approach
- arxiv url: http://arxiv.org/abs/2505.05126v4
- Date: Mon, 06 Oct 2025 09:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:09.754917
- Title: Taming OOD Actions for Offline Reinforcement Learning: An Advantage-Based Approach
- Title(参考訳): オフライン強化学習のためのOOD行動のモデリング:アドバンテージに基づくアプローチ
- Authors: Xuyang Chen, Keyu Yan, Wenhan Cao, Lin Zhao,
- Abstract要約: オフライン強化学習は、オンラインインタラクションなしで、固定データセットからポリシーを学習する。
既存のメソッドは、一般化を制限する全アウト・オブ・ディストリビューション(OOD)アクションを回避します。
本稿では,アドバンテージをベースとしたDiffusion Actor-Critic(ADAC)を提案する。
- 参考スコア(独自算出の注目度): 18.386867476774864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) learns policies from fixed datasets without online interactions, but suffers from distribution shift, causing inaccurate evaluation and overestimation of out-of-distribution (OOD) actions. Existing methods counter this by conservatively discouraging all OOD actions, which limits generalization. We propose Advantage-based Diffusion Actor-Critic (ADAC), which evaluates OOD actions via an advantage-like function and uses it to modulate the Q-function update discriminatively. Our key insight is that the (state) value function is generally learned more reliably than the action-value function; we thus use the next-state value to indirectly assess each action. We develop a PointMaze environment to clearly visualize that advantage modulation effectively selects superior OOD actions while discouraging inferior ones. Moreover, extensive experiments on the D4RL benchmark show that ADAC achieves state-of-the-art performance, with especially strong gains on challenging tasks.
- Abstract(参考訳): オフライン強化学習(RL)は、オンラインインタラクションのない固定データセットからポリシーを学習するが、分散シフトに悩まされ、不正確な評価とアウト・オブ・ディストリビューション(OOD)アクションの過大評価を引き起こす。
既存の方法は、一般化を制限するすべてのOODアクションを保守的に無効にすることで、これに対処する。
本稿では,アドバンテージをベースとしたDiffusion Actor-Critic(ADAC)を提案する。
私たちのキーとなる洞察は、(状態)値関数は一般的にアクション値関数よりも確実に学習されるということです。
我々は、利点変調が優れたOOD動作を効果的に選択し、劣悪な動作を抑えることをはっきりと可視化するPointMaze環境を開発する。
さらに、D4RLベンチマークの広範な実験により、ADACは最先端のパフォーマンスを達成し、特に挑戦的なタスクに強い利益をもたらすことが示されている。
関連論文リスト
- Imagination-Limited Q-Learning for Offline Reinforcement Learning [18.8976065411658]
Imagination-Limited Q-learning (ILQ) 法を提案する。
具体的には、動的モデルを用いて、OODのアクション値を想像し、次に最大振る舞い値で想像値をクリップする。
本手法はD4RLベンチマークにおいて,多種多様なタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-18T03:05:21Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization [23.817251267022847]
本稿では,過度な最適化問題を緩和するために,行動対応型政策最適化(BSPO)手法を提案する。
BSPOは強化学習過程におけるOOD反応の発生を減少させる。
実験の結果,BSPOは報酬過度最適化の防止においてベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-23T16:20:59Z) - Out-of-Distribution Detection using Synthetic Data Generation [21.612592503592143]
In- and out-of-distriion (OOD) 入力は、分類システムの信頼性の高いデプロイに不可欠である。
本稿では,Large Language Models (LLMs) の生成能力を利用して,高品質なOODプロキシを生成する手法を提案する。
論文 参考訳(メタデータ) (2025-02-05T16:22:09Z) - Offline Reinforcement Learning with OOD State Correction and OOD Action Suppression [47.598803055066554]
オフライン強化学習(RL)では、アウト・オブ・ディストリビューション(OOD)のアクション問題に対処することが焦点となっている。
我々は、OOD状態がパフォーマンスを損なう問題もまだ過小評価されていないと論じている。
オフライン RL における OOD 状態修正と OOD 動作抑制を統一する,シンプルで効果的な SCAS を提案する。
論文 参考訳(メタデータ) (2024-10-25T09:01:37Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Skeleton-OOD: An End-to-End Skeleton-Based Model for Robust Out-of-Distribution Human Action Detection [17.85872085904999]
そこで我々はSkeleton-OODと呼ばれる新しい骨格モデルを提案する。
Skeleton-OODは、ID認識の精度を確保しつつ、OODタスクの有効性を向上させる。
本研究は,骨格型行動認識タスクの文脈における従来のOOD検出技術の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-05-31T05:49:37Z) - Fast Decision Boundary based Out-of-Distribution Detector [7.04686607977352]
アウト・オブ・ディストリビューション(OOD)検出は、AIシステムの安全なデプロイに不可欠である。
既存の特徴空間法は有効であるが、しばしば計算上のオーバーヘッドを生じさせる。
補助モデルを用いない計算効率の良いOOD検出器を提案する。
論文 参考訳(メタデータ) (2023-12-15T19:50:32Z) - AUTO: Adaptive Outlier Optimization for Online Test-Time OOD Detection [81.49353397201887]
オープンソースアプリケーションに機械学習モデルをデプロイするには、アウト・オブ・ディストリビューション(OOD)検出が不可欠だ。
我々は、未ラベルのオンラインデータをテスト時に直接利用してOOD検出性能を向上させる、テスト時OOD検出と呼ばれる新しいパラダイムを導入する。
本稿では,入出力フィルタ,IDメモリバンク,意味的に一貫性のある目的からなる適応外乱最適化(AUTO)を提案する。
論文 参考訳(メタデータ) (2023-03-22T02:28:54Z) - Out-of-distribution Detection with Implicit Outlier Transformation [72.73711947366377]
外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力である。
我々は,未確認のOOD状況に対してモデルの性能を良くする,新しいOEベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-09T04:36:38Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - ATOM: Robustifying Out-of-distribution Detection Using Outlier Mining [51.19164318924997]
インフォメーション・アウトリエ・マイニングによるアドリアトレーニングは、OOD検出の堅牢性を向上させる。
ATOMは,古典的,敵対的なOOD評価タスクの幅広いファミリーの下で,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-26T20:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。