論文の概要: What Fundamental Structure in Reward Functions Enables Efficient Sparse-Reward Learning?
- arxiv url: http://arxiv.org/abs/2509.03790v2
- Date: Tue, 09 Sep 2025 02:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.799724
- Title: What Fundamental Structure in Reward Functions Enables Efficient Sparse-Reward Learning?
- Title(参考訳): 効率的なスパース・リワード学習を可能にするリワード関数の基本構造
- Authors: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma,
- Abstract要約: Policy-Aware Matrix Completion (PAMC)は構造的報酬学習フレームワークに向けた最初の具体的なステップである。
その結果,PAMCは構造報酬が存在する場合の実用的で原則化されたツールであり,より広い構造報酬学習の観点からの具体的な第1のインスタンス化であることがわかった。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse-reward reinforcement learning (RL) remains fundamentally hard: without structure, any agent needs $\Omega(|\mathcal{S}||\mathcal{A}|/p)$ samples to recover rewards. We introduce Policy-Aware Matrix Completion (PAMC) as a first concrete step toward a structural reward learning framework. Our key idea is to exploit approximate low-rank + sparse structure in the reward matrix, under policy-biased (MNAR) sampling. We prove recovery guarantees with inverse-propensity weighting, and establish a visitation-weighted error-to-regret bound linking completion error to control performance. Importantly, when assumptions weaken, PAMC degrades gracefully: confidence intervals widen and the algorithm abstains, ensuring safe fallback to exploration. Empirically, PAMC improves sample efficiency across Atari-26 (10M steps), DM Control, MetaWorld MT50, D4RL offline RL, and preference-based RL benchmarks, outperforming DrQ-v2, DreamerV3, Agent57, T-REX/D-REX, and PrefPPO under compute-normalized comparisons. Our results highlight PAMC as a practical and principled tool when structural rewards exist, and as a concrete first instantiation of a broader structural reward learning perspective.
- Abstract(参考訳): スパース・リワード強化学習(RL)は、構造がなければ、いかなるエージェントも報酬を取り戻すために$\Omega(|\mathcal{S}||\mathcal{A}|/p)$サンプルを必要とする。
本稿では、構造的報酬学習フレームワークに向けた第一歩として、ポリシ・アウェア・マトリックス・コンプリート(PAMC)を紹介した。
我々のキーとなる考え方は、政策バイアスサンプリング(MNAR)の下で、報酬行列の低ランク+スパース構造を近似的に利用することである。
逆正当性重み付けによるリカバリ保証を証明し、訪問重み付き境界リンク完了誤差を制御性能に確立する。
重要なことは、仮定が弱まるとPAMCは優雅に劣化し、信頼区間が広くなり、アルゴリズムが減衰し、探索への安全なフォールバックが保証される。
実証的には、PAMCはAtari-26(10Mステップ)、DM Control、MetaWorld MT50、D4RLオフラインRL、および優先ベースのRLベンチマークのサンプル効率を改善し、計算正規化比較においてDrQ-v2、DreamerV3、Agen57、T-REX/D-REX、PrefPPOを上回っている。
その結果,PAMCは構造報酬が存在する場合の実用的で原則化されたツールであり,より広い構造報酬学習の観点からの具体的な第1のインスタンス化であることがわかった。
関連論文リスト
- COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。
近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。
本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T07:05:18Z) - CARL: Causality-guided Architecture Representation Learning for an Interpretable Performance Predictor [6.014777261874645]
ニューラルアーキテクチャサーチ(NAS)の評価段階を加速する有望な手法として、性能予測器が登場した。
本稿では,アーキテクチャのクリティカルな(因果的)特徴と冗長な(非因果的)特徴を分離し,一般化可能なアーキテクチャ性能予測を目的とした因果性誘導型アーキテクチャ表現学習(CARL)手法を提案する。
5つのNAS探索空間の実験は、CARLの最先端の精度と優れた解釈可能性を示している。
論文 参考訳(メタデータ) (2025-06-04T14:30:55Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - Dynamic Action Interpolation: A Universal Approach for Accelerating Reinforcement Learning with Expert Guidance [0.0]
強化学習(Reinforcement Learning, RL)は、特に早期訓練において、重度のサンプル非効率性に悩まされる。
本稿では,エキスパートとRLアクションを補間する汎用的かつ簡単なフレームワークであるDynamic Action Interpolation (DAI)を提案する。
理論的解析により,DAIは状態訪問分布を再現し,値関数学習を加速することを示した。
論文 参考訳(メタデータ) (2025-04-26T02:12:02Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。