論文の概要: Uncertainty-Aware Rank-One MIMO Q Network Framework for Accelerated Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.19917v1
- Date: Mon, 23 Feb 2026 14:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.866983
- Title: Uncertainty-Aware Rank-One MIMO Q Network Framework for Accelerated Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための不確かさを意識したランキングワンMIMO Qネットワークフレームワーク
- Authors: Thanh Nguyen, Tung Luu, Tri Ton, Sungwoong Kim, Chang D. Yoo,
- Abstract要約: オフライン強化学習のためのMIMO(Uncertainty-Aware Rank-One Multi-Input Multi-Output)Q Networkフレームワークを提案する。
このフレームワークは、データ不確実性を定量化し、トレーニング損失に利用し、対応するQ関数の低信頼境界を最大化するポリシーをトレーニングすることを目的とする。
- 参考スコア(独自算出の注目度): 32.6459755506093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) has garnered significant interest due to its safe and easily scalable paradigm. However, training under this paradigm presents its own challenge: the extrapolation error stemming from out-of-distribution (OOD) data. Existing methodologies have endeavored to address this issue through means like penalizing OOD Q-values or imposing similarity constraints on the learned policy and the behavior policy. Nonetheless, these approaches are often beset by limitations such as being overly conservative in utilizing OOD data, imprecise OOD data characterization, and significant computational overhead. To address these challenges, this paper introduces an Uncertainty-Aware Rank-One Multi-Input Multi-Output (MIMO) Q Network framework. The framework aims to enhance Offline Reinforcement Learning by fully leveraging the potential of OOD data while still ensuring efficiency in the learning process. Specifically, the framework quantifies data uncertainty and harnesses it in the training losses, aiming to train a policy that maximizes the lower confidence bound of the corresponding Q-function. Furthermore, a Rank-One MIMO architecture is introduced to model the uncertainty-aware Q-function, \TP{offering the same ability for uncertainty quantification as an ensemble of networks but with a cost nearly equivalent to that of a single network}. Consequently, this framework strikes a harmonious balance between precision, speed, and memory efficiency, culminating in improved overall performance. Extensive experimentation on the D4RL benchmark demonstrates that the framework attains state-of-the-art performance while remaining computationally efficient. By incorporating the concept of uncertainty quantification, our framework offers a promising avenue to alleviate extrapolation errors and enhance the efficiency of offline RL.
- Abstract(参考訳): オフライン強化学習(RL)は、安全でスケーラブルなパラダイムのため、大きな関心を集めている。
しかし、このパラダイムの下でのトレーニングは、アウト・オブ・ディストリビューション(OOD)データから生じる外挿誤差という、独自の課題を提示している。
既存の方法論は、OOD Q値のペナルティ化や、学習したポリシーと行動ポリシーに類似性制約を課す方法によって、この問題に対処しようと努力してきた。
しかしながら、これらのアプローチは、OODデータの利用に過度に保守的であること、不正確なOODデータの特徴付け、計算上のオーバーヘッドなど、制限によってしばしば設定される。
これらの課題に対処するために,本研究では,不確かさを意識したランキングワンマルチ入力マルチアウトプット(MIMO)Qネットワークフレームワークを提案する。
このフレームワークは、OODデータの可能性を完全に活用し、学習プロセスにおける効率性を確保しながら、オフライン強化学習を強化することを目的としている。
具体的には、このフレームワークは、データ不確実性を定量化し、トレーニング損失に利用し、対応するQ関数の低信頼境界を最大化するポリシーをトレーニングすることを目的としている。
さらに、ネットワークのアンサンブルと同じ不確実性定量化能力を持つが、コストは単一ネットワークとほぼ同等である不確実性対応Q-関数をモデル化するために、ランクワンMIMOアーキテクチャを導入している。
結果として、このフレームワークは精度、速度、メモリ効率の調和の取れたバランスをとっており、全体的な性能が向上する。
D4RLベンチマークでの大規模な実験は、このフレームワークが計算効率を保ちながら最先端の性能を達成することを示した。
不確実な定量化の概念を取り入れることで、我々のフレームワークは外挿誤差を緩和し、オフラインRLの効率を向上する有望な方法を提供する。
関連論文リスト
- Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation [7.3923284353934875]
本稿では,大規模言語モデル(LLM)出力の正しさと密接に一致したRAGシステムにおける信頼度推定手法を提案する。
提案手法は、生のフィードフォワードネットワーク(FFN)を自己回帰信号として活用することにより、事前の不確実性定量化手法を拡張した。
我々の結果は、アクティベーションに基づく信頼度モデリングが、信頼性の高いRAGデプロイメントへのスケーラブルでアーキテクチャを意識したパスを提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T16:55:56Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Improving Out-of-Distribution Detection via Epistemic Uncertainty
Adversarial Training [29.4569172720654]
我々は,ドロップアウトアンサンブルによって予測される不確実性の攻撃を組み込んだ,単純な対向訓練手法を開発した。
本手法は,OOD検出性能を標準データ上で向上させる(逆向きではない)とともに,ほぼランダムな推定性能から$geq 0.75$まで,標準化された部分AUCを改善する。
論文 参考訳(メタデータ) (2022-09-05T14:32:19Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Uncertainty-Based Out-of-Distribution Classification in Deep
Reinforcement Learning [17.10036674236381]
アウト・オブ・ディストリビューションデータの誤予測は、機械学習システムにおける安全性の危機的状況を引き起こす可能性がある。
我々は不確実性に基づくOOD分類のためのフレームワークUBOODを提案する。
UBOODはアンサンブルに基づく推定器と組み合わせることで,信頼性の高い分類結果が得られることを示す。
論文 参考訳(メタデータ) (2019-12-31T09:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。