論文の概要: Zero-Incentive Dynamics: a look at reward sparsity through the lens of unrewarded subgoals
- arxiv url: http://arxiv.org/abs/2507.01470v1
- Date: Wed, 02 Jul 2025 08:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.103723
- Title: Zero-Incentive Dynamics: a look at reward sparsity through the lens of unrewarded subgoals
- Title(参考訳): ゼロ・インセンティブ・ダイナミクス:非反転サブゴールレンズによる報酬空間の研究
- Authors: Yannick Molinghen, Tom Lenaerts,
- Abstract要約: この研究は、報酬の頻度が強化学習におけるタスクの難しさの信頼できる尺度であるという一般的な仮定を再検討する。
我々は、成功にとって重要な遷移が無関心のままであるゼロインセンティブのダイナミクスを示すような設定を特徴付けている。
最先端のディープサブゴールベースアルゴリズムはこれらのダイナミクスを活用できず、学習性能はサブゴール完了と最終的な報酬の間の時間的近接に非常に敏感であることを示す。
- 参考スコア(独自算出の注目度): 0.5217870815854702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work re-examines the commonly held assumption that the frequency of rewards is a reliable measure of task difficulty in reinforcement learning. We identify and formalize a structural challenge that undermines the effectiveness of current policy learning methods: when essential subgoals do not directly yield rewards. We characterize such settings as exhibiting zero-incentive dynamics, where transitions critical to success remain unrewarded. We show that state-of-the-art deep subgoal-based algorithms fail to leverage these dynamics and that learning performance is highly sensitive to the temporal proximity between subgoal completion and eventual reward. These findings reveal a fundamental limitation in current approaches and point to the need for mechanisms that can infer latent task structure without relying on immediate incentives.
- Abstract(参考訳): この研究は、報酬の頻度が強化学習におけるタスクの難しさの信頼できる尺度であるという一般的な仮定を再検討する。
我々は,現在の政策学習手法の有効性を損なう構造的課題を特定し,形式化する。
我々は、成功にとって重要な遷移が無関心のままであるゼロインセンティブのダイナミクスを示すような設定を特徴付けている。
最先端のディープサブゴールベースアルゴリズムはこれらのダイナミクスを活用できず、学習性能はサブゴール完了と最終的な報酬の間の時間的近接に非常に敏感であることを示す。
これらの知見は、現在のアプローチの根本的な制限を明らかにし、即時インセンティブに頼ることなく潜在タスク構造を推論できるメカニズムの必要性を指摘する。
関連論文リスト
- Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。
我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-29T17:02:49Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - CIM: Constrained Intrinsic Motivation for Sparse-Reward Continuous
Control [25.786085434943338]
内因性モチベーション(intrinsicmotive)は、外因性報酬(extrinsic rewards)の不足や不足を伴う強化学習タスクを解決するための有望な手法である。
固有のモチベーションを実装するには2つの技術的課題がある。
本稿では,制約付き内在的目標を構築するために,容易に達成可能なタスク前処理を活用するための制約付き内在的モチベーション(CIM)を提案する。
我々はCIM手法が最先端手法よりも性能とサンプル効率を大幅に向上させることを実証的に示す。
論文 参考訳(メタデータ) (2022-11-28T10:23:56Z) - Learning Domain Adaptive Object Detection with Probabilistic Teacher [93.76128726257946]
確率的教師(PT)と呼ばれる,シンプルで効果的な枠組みを提案する。
PTは、段階的に進化する教師から未ラベルの目標データの不確実性を捉え、相互に有利な方法で生徒の学習を指導することを目的としている。
また,不確実性誘導型自己学習を促進するために,新しいエントロピー・フォカル・ロス(EFL)を提案する。
論文 参考訳(メタデータ) (2022-06-13T16:24:22Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Off-Policy Reinforcement Learning with Delayed Rewards [16.914712720033524]
多くの現実世界のタスクでは、エージェントがアクションを実行した直後に即時報酬がアクセスできない、あるいは定義できない。
本稿では、まず、遅延報酬を伴う環境を正式に定義し、このような環境の非マルコフ的な性質から生じる課題について議論する。
理論収束保証を伴う遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-22T15:19:48Z) - Efficient Hierarchical Exploration with Stable Subgoal Representation
Learning [26.537055962523162]
本研究では,よく探索された領域におけるサブゴール埋め込みを安定化する状態特異な正規化を提案する。
我々は、新しい有望なサブゴールや国家を積極的に追求する効率的な階層的な探索戦略を開発する。
論文 参考訳(メタデータ) (2021-05-31T07:28:59Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。