論文の概要: Offline Meta-Reinforcement Learning with Flow-Based Task Inference and Adaptive Correction of Feature Overgeneralization
- arxiv url: http://arxiv.org/abs/2601.07164v1
- Date: Mon, 12 Jan 2026 03:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.195288
- Title: Offline Meta-Reinforcement Learning with Flow-Based Task Inference and Adaptive Correction of Feature Overgeneralization
- Title(参考訳): フローベースタスク推論によるオフラインメタ強化学習と特徴一般化の適応的補正
- Authors: Min Wang, Xin Li, Mingzhong Wang, Hasnaa Bennis,
- Abstract要約: オフラインメタ強化学習(OMRL)は、オフラインRLにおける多様なデータセットからの学習の強みと、メタRLの新しいタスクへの適応性を組み合わせる。
既存の研究では、$Q$ネットワークの一般化がオフラインRLにおける外挿誤差に影響を与えることが示されている。
特徴分布をモデル化し,不確かさを推定することでOODサンプルを同定するFLORAを提案する。
- 参考スコア(独自算出の注目度): 12.107082786676907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline meta-reinforcement learning (OMRL) combines the strengths of learning from diverse datasets in offline RL with the adaptability to new tasks of meta-RL, promising safe and efficient knowledge acquisition by RL agents. However, OMRL still suffers extrapolation errors due to out-of-distribution (OOD) actions, compromised by broad task distributions and Markov Decision Process (MDP) ambiguity in meta-RL setups. Existing research indicates that the generalization of the $Q$ network affects the extrapolation error in offline RL. This paper investigates this relationship by decomposing the $Q$ value into feature and weight components, observing that while decomposition enhances adaptability and convergence in the case of high-quality data, it often leads to policy degeneration or collapse in complex tasks. We observe that decomposed $Q$ values introduce a large estimation bias when the feature encounters OOD samples, a phenomenon we term ''feature overgeneralization''. To address this issue, we propose FLORA, which identifies OOD samples by modeling feature distributions and estimating their uncertainties. FLORA integrates a return feedback mechanism to adaptively adjust feature components. Furthermore, to learn precise task representations, FLORA explicitly models the complex task distribution using a chain of invertible transformations. We theoretically and empirically demonstrate that FLORA achieves rapid adaptation and meta-policy improvement compared to baselines across various environments.
- Abstract(参考訳): オフラインメタ強化学習(OMRL)は、オフラインRLにおける多様なデータセットからの学習の強みと、メタRLの新しいタスクへの適応性を組み合わせて、RLエージェントによる安全かつ効率的な知識獲得を約束する。
しかし、OMRLは、広範囲なタスク分散とメタRLセットアップにおけるマルコフ決定プロセス(MDP)の曖昧さにより、OOD(out-of-distriion)アクションによる外挿エラーに悩まされている。
既存の研究では、$Q$ネットワークの一般化がオフラインRLにおける外挿誤差に影響を与えることが示されている。
本稿では,Q$の値を特徴成分と重み成分に分解することで,高品質なデータの場合,分解は適応性と収束性を高めるが,複雑なタスクにおいて,政策の劣化や崩壊につながることが多いことを観察して,この関係を考察する。
我々は、分解された$Q$値が、その機能がOODサンプルに遭遇したときに大きな推定バイアスをもたらすことを観察する。
そこで本研究では,特徴分布をモデル化し,不確かさを推定することでOODサンプルを同定するFLORAを提案する。
FLORAはリターンフィードバック機構を統合し、機能コンポーネントを適応的に調整する。
さらに、正確なタスク表現を学習するために、FLORAは可逆変換の連鎖を用いて、複雑なタスク分布を明示的にモデル化する。
我々は,FLORAが様々な環境におけるベースラインと比較して,急速な適応とメタ政治の改善を実現することを理論的,実証的に実証した。
関連論文リスト
- Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration [56.074760766965085]
PRISMは、モデルの既存の知識との認知的対立度に基づいてデータを調停する動的認識フレームワークを実現する。
この結果から,内部最適化方式に基づくデータ分離が,スケーラブルでロバストなエージェントアライメントに不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-01-12T05:43:20Z) - Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文 参考訳(メタデータ) (2025-09-29T02:34:54Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Noise Distribution Decomposition based Multi-Agent Distributional Reinforcement Learning [15.82785057592436]
マルチエージェント強化学習(MARL)は、インテリジェントエージェント間の干渉によるノイズの影響を受けやすい。
本稿では,グローバル共有雑音報酬を近似することで,分解に基づく新しいマルチエージェント分布RL法を提案する。
また,提案手法の有効性を,雑音を考慮した広範囲なシミュレーション実験により検証した。
論文 参考訳(メタデータ) (2023-12-12T07:24:15Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Conditional Mutual Information for Disentangled Representations in
Reinforcement Learning [13.450394764597663]
強化学習環境は、特徴間の素早い相関でトレーニングデータを生成することができる。
アンタングル表現はロバスト性を改善することができるが、特徴間の相互情報を最小化する既存のアンタングル化技術は独立した特徴を必要とする。
相関特徴を持つ高次元観測の非交叉表現を学習するRLアルゴリズムの補助的タスクを提案する。
論文 参考訳(メタデータ) (2023-05-23T14:56:19Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。