論文の概要: Variational OOD State Correction for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.00503v1
- Date: Thu, 01 May 2025 13:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.307651
- Title: Variational OOD State Correction for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための変分OOD状態補正
- Authors: Ke Jiang, Wen Jiang, Xiaoyang Tan,
- Abstract要約: 我々は,OOD状態修正のためのDASP(dendentity-Aware Safety Perception)という新しい手法を提案する。
提案手法は,データ密度の高い結果につながる行動の優先順位付けをエージェントに促し,その操作を促進させるか,あるいは非流通(安全)領域への復帰を促す。
オフラインの MuJoCo および AntMaze スイート上での広範囲な実験評価により,提案手法の有効性と妥当性を検証した。
- 参考スコア(独自算出の注目度): 15.683111208827972
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The performance of Offline reinforcement learning is significantly impacted by the issue of state distributional shift, and out-of-distribution (OOD) state correction is a popular approach to address this problem. In this paper, we propose a novel method named Density-Aware Safety Perception (DASP) for OOD state correction. Specifically, our method encourages the agent to prioritize actions that lead to outcomes with higher data density, thereby promoting its operation within or the return to in-distribution (safe) regions. To achieve this, we optimize the objective within a variational framework that concurrently considers both the potential outcomes of decision-making and their density, thus providing crucial contextual information for safe decision-making. Finally, we validate the effectiveness and feasibility of our proposed method through extensive experimental evaluations on the offline MuJoCo and AntMaze suites.
- Abstract(参考訳): オフライン強化学習の性能は、状態分布シフトの問題によって著しく影響を受けており、この問題に対処するためには、アウト・オブ・ディストリビューション(OOD)状態修正が一般的なアプローチである。
本稿では,OOD状態修正のためのDASP(dendentity-Aware Safety Perception)という新しい手法を提案する。
具体的には,データ密度の高い結果につながる行動の優先順位付けをエージェントに促すことで,その操作を促進させるか,あるいは非流通(安全)領域に戻すことを推奨する。
そこで我々は,意思決定の潜在的な結果と,その密度の両方を同時に考慮する変動的枠組みにおける目的を最適化し,安全な意思決定のための重要なコンテキスト情報を提供する。
最後に、オフラインの MuJoCo および AntMaze スイート上での広範囲な実験評価により、提案手法の有効性と妥当性を検証した。
関連論文リスト
- Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Improving Point-based Crowd Counting and Localization Based on Auxiliary Point Guidance [59.71186244597394]
本稿では,提案手法における提案対象マッチングの安定化に有効な手法を提案する。
本稿では,提案手法の選択と最適化のために,Auxiliary Point Guidance (APG)を提案する。
また,多様な群集シナリオにおける適応的特徴抽出を可能にするために,IFI(Implicit Feature Interpolation)を開発した。
論文 参考訳(メタデータ) (2024-05-17T07:23:27Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Comprehensive OOD Detection Improvements [46.46252643210326]
このタスクのために、アウト・オブ・ディストリビューション(OOD)検出手法が作成されている。
我々は,時間的高速化と性能向上の両面において,特徴埋め込みの次元的削減を表現ベース手法に適用する。
提案手法の有効性を,OpenOODv1.5ベンチマークフレームワーク上で実証する。
論文 参考訳(メタデータ) (2024-01-18T18:05:35Z) - A Chebyshev Confidence Guided Source-Free Domain Adaptation Framework
for Medical Image Segmentation [7.387107394378523]
ソースフリードメイン適応(SFDA)は、ラベル付きソースドメインでトレーニングされたモデルを、ソースデータにアクセスせずにラベルなしのターゲットドメインに適応することを目的としている。
最近のSFDA法は擬似ラベル(PL)に基づく自己学習に依存している
本稿では,PLの信頼性を正確に評価し,自己学習のための自己改善PLを生成するためのSFDAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-27T12:12:06Z) - Constrained Policy Optimization with Explicit Behavior Density for
Offline Reinforcement Learning [18.022087654522203]
本研究では, 明示的行動密度 (CPED) を用いた制約付き政策最適化手法を提案し, 行動ポリシーの密度を推定する。
明示密度を推定することにより、CPEDは安全領域を正確に識別し、領域内の最適化を可能にする。
実証的には、CPEDは様々な標準的なオフライン強化学習タスクにおいて既存の選択肢よりも優れており、より高い期待リターンをもたらす。
論文 参考訳(メタデータ) (2023-01-28T08:48:26Z) - How to Enable Uncertainty Estimation in Proximal Policy Optimization [20.468991996052953]
既存の不確実性推定手法は, 都市深部RLで広く採用されていない。
本稿では,アクタ・クリティカルRLアルゴリズムにおける不確実性とOODの定義を提案する。
本稿では,最近提案されたMasksemblesの手法が,調査手法間で好適なバランスをとることを実験的に示す。
論文 参考訳(メタデータ) (2022-10-07T15:56:59Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - The Effect of Optimization Methods on the Robustness of
Out-of-Distribution Detection Approaches [12.216570247802874]
ディープニューラルネットワーク(DNN)は、さまざまなドメインにおいて事実上の学習メカニズムとなっている。
アウト・オブ・ディストリビューション(OOD)インプットで不確実に実行する傾向は、クリティカルドメインへの導入を妨げる。
OOD入力の検出にはいくつかのアプローチが提案されているが、既存のアプローチにはロバスト性がない。
論文 参考訳(メタデータ) (2020-06-25T17:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。