Fugu-MT 論文翻訳(概要): Uncertainty-Aware Rank-One MIMO Q Network Framework for Accelerated Offline Reinforcement Learning

論文の概要: Uncertainty-Aware Rank-One MIMO Q Network Framework for Accelerated Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2602.19917v1
Date: Mon, 23 Feb 2026 14:57:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.866983
Title: Uncertainty-Aware Rank-One MIMO Q Network Framework for Accelerated Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のための不確かさを意識したランキングワンMIMO Qネットワークフレームワーク
Authors: Thanh Nguyen, Tung Luu, Tri Ton, Sungwoong Kim, Chang D. Yoo,
Abstract要約: オフライン強化学習のためのMIMO(Uncertainty-Aware Rank-One Multi-Input Multi-Output)Q Networkフレームワークを提案する。このフレームワークは、データ不確実性を定量化し、トレーニング損失に利用し、対応するQ関数の低信頼境界を最大化するポリシーをトレーニングすることを目的とする。
参考スコア（独自算出の注目度）: 32.6459755506093
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline reinforcement learning (RL) has garnered significant interest due to its safe and easily scalable paradigm. However, training under this paradigm presents its own challenge: the extrapolation error stemming from out-of-distribution (OOD) data. Existing methodologies have endeavored to address this issue through means like penalizing OOD Q-values or imposing similarity constraints on the learned policy and the behavior policy. Nonetheless, these approaches are often beset by limitations such as being overly conservative in utilizing OOD data, imprecise OOD data characterization, and significant computational overhead. To address these challenges, this paper introduces an Uncertainty-Aware Rank-One Multi-Input Multi-Output (MIMO) Q Network framework. The framework aims to enhance Offline Reinforcement Learning by fully leveraging the potential of OOD data while still ensuring efficiency in the learning process. Specifically, the framework quantifies data uncertainty and harnesses it in the training losses, aiming to train a policy that maximizes the lower confidence bound of the corresponding Q-function. Furthermore, a Rank-One MIMO architecture is introduced to model the uncertainty-aware Q-function, \TP{offering the same ability for uncertainty quantification as an ensemble of networks but with a cost nearly equivalent to that of a single network}. Consequently, this framework strikes a harmonious balance between precision, speed, and memory efficiency, culminating in improved overall performance. Extensive experimentation on the D4RL benchmark demonstrates that the framework attains state-of-the-art performance while remaining computationally efficient. By incorporating the concept of uncertainty quantification, our framework offers a promising avenue to alleviate extrapolation errors and enhance the efficiency of offline RL.
Abstract（参考訳）: オフライン強化学習(RL)は、安全でスケーラブルなパラダイムのため、大きな関心を集めている。しかし、このパラダイムの下でのトレーニングは、アウト・オブ・ディストリビューション(OOD)データから生じる外挿誤差という、独自の課題を提示している。既存の方法論は、OOD Q値のペナルティ化や、学習したポリシーと行動ポリシーに類似性制約を課す方法によって、この問題に対処しようと努力してきた。しかしながら、これらのアプローチは、OODデータの利用に過度に保守的であること、不正確なOODデータの特徴付け、計算上のオーバーヘッドなど、制限によってしばしば設定される。これらの課題に対処するために,本研究では,不確かさを意識したランキングワンマルチ入力マルチアウトプット(MIMO)Qネットワークフレームワークを提案する。このフレームワークは、OODデータの可能性を完全に活用し、学習プロセスにおける効率性を確保しながら、オフライン強化学習を強化することを目的としている。具体的には、このフレームワークは、データ不確実性を定量化し、トレーニング損失に利用し、対応するQ関数の低信頼境界を最大化するポリシーをトレーニングすることを目的としている。さらに、ネットワークのアンサンブルと同じ不確実性定量化能力を持つが、コストは単一ネットワークとほぼ同等である不確実性対応Q-関数をモデル化するために、ランクワンMIMOアーキテクチャを導入している。結果として、このフレームワークは精度、速度、メモリ効率の調和の取れたバランスをとっており、全体的な性能が向上する。 D4RLベンチマークでの大規模な実験は、このフレームワークが計算効率を保ちながら最先端の性能を達成することを示した。不確実な定量化の概念を取り入れることで、我々のフレームワークは外挿誤差を緩和し、オフラインRLの効率を向上する有望な方法を提供する。

関連論文リスト

Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning [31.629261193485053]
大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。既存の結果のみのRLVRパイプラインのほとんどは、バイナリの正当性信号にのみ依存しており、モデルの本質的な不確かさをほとんど無視している。本稿では,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。
論文参考訳（メタデータ） (2026-02-26T08:40:06Z)
Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation [7.3923284353934875]
本稿では,大規模言語モデル(LLM)出力の正しさと密接に一致したRAGシステムにおける信頼度推定手法を提案する。提案手法は、生のフィードフォワードネットワーク(FFN)を自己回帰信号として活用することにより、事前の不確実性定量化手法を拡張した。我々の結果は、アクティベーションに基づく信頼度モデリングが、信頼性の高いRAGデプロイメントへのスケーラブルでアーキテクチャを意識したパスを提供することを示した。
論文参考訳（メタデータ） (2025-10-15T16:55:56Z)
How Breakable Is Privacy: Probing and Resisting Model Inversion Attacks in Collaborative Inference [13.453033795109155]
協調推論は、中間機能をクラウドモデルに伝達することでエッジデバイスの計算効率を向上させる。モデル逆攻撃(MIA)の難しさを評価するための確立された基準はない。本稿では、CIにおけるMIAの難易度を評価するための最初の理論的基準を提案し、相互情報、エントロピー、有効情報量などを重要な要因として同定する。
論文参考訳（メタデータ） (2025-01-01T13:00:01Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-06T22:09:46Z)
Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文参考訳（メタデータ） (2023-10-06T17:57:44Z)
Uncertainty Estimation by Fisher Information-based Evidential Deep Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文参考訳（メタデータ） (2023-03-03T16:12:59Z)
Improving Out-of-Distribution Detection via Epistemic Uncertainty Adversarial Training [29.4569172720654]
我々は,ドロップアウトアンサンブルによって予測される不確実性の攻撃を組み込んだ,単純な対向訓練手法を開発した。本手法は,OOD検出性能を標準データ上で向上させる(逆向きではない)とともに,ほぼランダムな推定性能から$geq 0.75$まで,標準化された部分AUCを改善する。
論文参考訳（メタデータ） (2022-09-05T14:32:19Z)
Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文参考訳（メタデータ） (2021-10-04T16:40:13Z)
Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文参考訳（メタデータ） (2021-05-17T20:16:46Z)
Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文参考訳（メタデータ） (2020-09-29T04:58:17Z)
Uncertainty-Based Out-of-Distribution Classification in Deep Reinforcement Learning [17.10036674236381]
アウト・オブ・ディストリビューションデータの誤予測は、機械学習システムにおける安全性の危機的状況を引き起こす可能性がある。我々は不確実性に基づくOOD分類のためのフレームワークUBOODを提案する。 UBOODはアンサンブルに基づく推定器と組み合わせることで,信頼性の高い分類結果が得られることを示す。
論文参考訳（メタデータ） (2019-12-31T09:52:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。