論文の概要: What Fundamental Structure in Reward Functions Enables Efficient Sparse-Reward Learning?
- arxiv url: http://arxiv.org/abs/2509.03790v1
- Date: Thu, 04 Sep 2025 00:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.00261
- Title: What Fundamental Structure in Reward Functions Enables Efficient Sparse-Reward Learning?
- Title(参考訳): 効率的なスパース・リワード学習を可能にするリワード関数の基本構造
- Authors: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma,
- Abstract要約: Policy-Aware Matrix Completion (PAMC)は、行列補完理論と強化学習を結びつける。
PAMCは、強い探索、構造化、表現学習と比較して1.6から2.1の因子によるサンプル効率を改善する。
結果は、ロボティクス、医療、その他の安全にクリティカルなサンプル調査アプリケーションに即座に影響する、有望な新しいパラダイムとして構造報酬学習を確立します。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What fundamental properties of reward functions enable efficient sparse-reward reinforcement learning? We address this question through the lens of low-rank structure in reward matrices, showing that such structure induces a sharp transition from exponential to polynomial sample complexity, the first result of this kind for sparse-reward RL. We introduce Policy-Aware Matrix Completion (PAMC), which connects matrix completion theory with reinforcement learning via a new analysis of policy-dependent sampling. Our framework provides: (i) impossibility results for general sparse reward observation, (ii) reward-free representation learning from dynamics, (iii) distribution-free confidence sets via conformal prediction, and (iv) robust completion guarantees that degrade gracefully when low-rank structure is only approximate. Empirically, we conduct a pre-registered evaluation across 100 systematically sampled domains, finding exploitable structure in over half. PAMC improves sample efficiency by factors between 1.6 and 2.1 compared to strong exploration, structured, and representation-learning baselines, while adding only about 20 percent computational overhead.These results establish structural reward learning as a promising new paradigm, with immediate implications for robotics, healthcare, and other safety-critical, sample-expensive applications.
- Abstract(参考訳): 報酬関数の基本的性質は、効率的なスパース・リワード強化学習を可能にするか?
報奨行列の低ランク構造レンズを用いてこの問題に対処し、このような構造が指数関数から多項式サンプルの複雑性への急激な遷移を引き起こすことを示す。
本稿では,行列補完理論と強化学習を結合したポリシ・アウェア・マトリックス・コンプリート(PAMC)を提案する。
私たちのフレームワークは以下のとおりです。
一 一般的なスパース報酬観察の不合理性結果
(II)力学からの報酬なし表現学習
三 共形予測による分布自由信頼セット、及び
(4)低ランク構造が近似的である場合に、頑健な完備化が優雅に低下することを保証する。
実証的に,100の系統的なドメインにまたがって事前登録を行い,その半分以上の活用可能な構造を見出した。
PAMCは、強力な探索、構造化、表現学習ベースラインに比べて1.6から2.1の要因によるサンプル効率の向上を図り、計算オーバーヘッドはわずか20%に過ぎず、これらの結果は、ロボティクス、医療、その他の安全クリティカルなサンプル訓練アプリケーションに即座に影響する、有望な新しいパラダイムとして構造報酬学習を確立している。
関連論文リスト
- COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。
近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。
本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T07:05:18Z) - CARL: Causality-guided Architecture Representation Learning for an Interpretable Performance Predictor [6.014777261874645]
ニューラルアーキテクチャサーチ(NAS)の評価段階を加速する有望な手法として、性能予測器が登場した。
本稿では,アーキテクチャのクリティカルな(因果的)特徴と冗長な(非因果的)特徴を分離し,一般化可能なアーキテクチャ性能予測を目的とした因果性誘導型アーキテクチャ表現学習(CARL)手法を提案する。
5つのNAS探索空間の実験は、CARLの最先端の精度と優れた解釈可能性を示している。
論文 参考訳(メタデータ) (2025-06-04T14:30:55Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - Dynamic Action Interpolation: A Universal Approach for Accelerating Reinforcement Learning with Expert Guidance [0.0]
強化学習(Reinforcement Learning, RL)は、特に早期訓練において、重度のサンプル非効率性に悩まされる。
本稿では,エキスパートとRLアクションを補間する汎用的かつ簡単なフレームワークであるDynamic Action Interpolation (DAI)を提案する。
理論的解析により,DAIは状態訪問分布を再現し,値関数学習を加速することを示した。
論文 参考訳(メタデータ) (2025-04-26T02:12:02Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。