論文の概要: Taming OOD Actions for Offline Reinforcement Learning: An Advantage-Based Approach
- arxiv url: http://arxiv.org/abs/2505.05126v2
- Date: Fri, 13 Jun 2025 07:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 13:34:01.669258
- Title: Taming OOD Actions for Offline Reinforcement Learning: An Advantage-Based Approach
- Title(参考訳): オフライン強化学習のためのOOD行動のモデリング:アドバンテージに基づくアプローチ
- Authors: Xuyang Chen, Keyu Yan, Lin Zhao,
- Abstract要約: オフライン強化学習(RL)は、オンラインインタラクションなしで、固定データセットから意思決定ポリシーを学ぶことを目的としている。
本稿では, OOD アクションを体系的に評価する新しい手法として, アドバンテージベースの拡散アクター・クリティカル (ADAC) を提案する。
ADACはD4RLベンチマークのほとんど全てのタスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 11.836153064242811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) aims to learn decision-making policies from fixed datasets without online interactions, providing a practical solution where online data collection is expensive or risky. However, offline RL often suffers from distribution shift, resulting in inaccurate evaluation and substantial overestimation on out-of-distribution (OOD) actions. To address this, existing approaches incorporate conservatism by indiscriminately discouraging all OOD actions, thereby hindering the agent's ability to generalize and exploit beneficial ones. In this paper, we propose Advantage-based Diffusion Actor-Critic (ADAC), a novel method that systematically evaluates OOD actions using the batch-optimal value function. Based on this evaluation, ADAC defines an advantage function to modulate the Q-function update, enabling more precise assessment of OOD action quality. We design a custom PointMaze environment and collect datasets to visually reveal that advantage modulation can effectively identify and select superior OOD actions. Extensive experiments show that ADAC achieves state-of-the-art performance on almost all tasks in the D4RL benchmark, with particularly clear margins on the more challenging tasks.
- Abstract(参考訳): オフライン強化学習(RL)は、オンラインインタラクションのない固定データセットから意思決定ポリシーを学習することを目的としており、オンラインデータ収集が高価またはリスクの高い実用的なソリューションを提供する。
しかし、オフラインRLは、しばしば分布シフトに悩まされ、不正確な評価と、アウト・オブ・ディストリビューション(OOD)アクションに対するかなりの過大評価をもたらす。
これを解決するために、既存のアプローチでは、すべてのOODアクションを無差別に排除することで保守主義を取り入れており、それによってエージェントが有用なアクションを一般化し活用する能力を妨げている。
本稿では,バッチ最適値関数を用いてOOD動作を体系的に評価する新しい手法であるAdvantage-based Diffusion Actor-Critic (ADAC)を提案する。
この評価に基づいて、ADACはQ関数更新を変調するアドバンテージ関数を定義し、OODアクションの品質をより正確に評価することができる。
我々は、カスタムのPointMaze環境を設計し、データセットを収集し、有利な変調が優れたOODアクションを効果的に識別し、選択できることを視覚的に明らかにする。
大規模な実験により、ADACはD4RLベンチマークのほとんど全てのタスクで最先端のパフォーマンスを達成している。
関連論文リスト
- Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization [23.817251267022847]
本稿では,過度な最適化問題を緩和するために,行動対応型政策最適化(BSPO)手法を提案する。
BSPOは強化学習過程におけるOOD反応の発生を減少させる。
実験の結果,BSPOは報酬過度最適化の防止においてベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-23T16:20:59Z) - Out-of-Distribution Detection using Synthetic Data Generation [21.612592503592143]
In- and out-of-distriion (OOD) 入力は、分類システムの信頼性の高いデプロイに不可欠である。
本稿では,Large Language Models (LLMs) の生成能力を利用して,高品質なOODプロキシを生成する手法を提案する。
論文 参考訳(メタデータ) (2025-02-05T16:22:09Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Skeleton-OOD: An End-to-End Skeleton-Based Model for Robust Out-of-Distribution Human Action Detection [17.85872085904999]
そこで我々はSkeleton-OODと呼ばれる新しい骨格モデルを提案する。
Skeleton-OODは、ID認識の精度を確保しつつ、OODタスクの有効性を向上させる。
本研究は,骨格型行動認識タスクの文脈における従来のOOD検出技術の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-05-31T05:49:37Z) - Fast Decision Boundary based Out-of-Distribution Detector [7.04686607977352]
アウト・オブ・ディストリビューション(OOD)検出は、AIシステムの安全なデプロイに不可欠である。
既存の特徴空間法は有効であるが、しばしば計算上のオーバーヘッドを生じさせる。
補助モデルを用いない計算効率の良いOOD検出器を提案する。
論文 参考訳(メタデータ) (2023-12-15T19:50:32Z) - AUTO: Adaptive Outlier Optimization for Online Test-Time OOD Detection [81.49353397201887]
オープンソースアプリケーションに機械学習モデルをデプロイするには、アウト・オブ・ディストリビューション(OOD)検出が不可欠だ。
我々は、未ラベルのオンラインデータをテスト時に直接利用してOOD検出性能を向上させる、テスト時OOD検出と呼ばれる新しいパラダイムを導入する。
本稿では,入出力フィルタ,IDメモリバンク,意味的に一貫性のある目的からなる適応外乱最適化(AUTO)を提案する。
論文 参考訳(メタデータ) (2023-03-22T02:28:54Z) - Out-of-distribution Detection with Implicit Outlier Transformation [72.73711947366377]
外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力である。
我々は,未確認のOOD状況に対してモデルの性能を良くする,新しいOEベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-09T04:36:38Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - ATOM: Robustifying Out-of-distribution Detection Using Outlier Mining [51.19164318924997]
インフォメーション・アウトリエ・マイニングによるアドリアトレーニングは、OOD検出の堅牢性を向上させる。
ATOMは,古典的,敵対的なOOD評価タスクの幅広いファミリーの下で,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-26T20:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。