論文の概要: A Study of Value-Aware Eigenoptions
- arxiv url: http://arxiv.org/abs/2507.09127v1
- Date: Sat, 12 Jul 2025 03:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.464137
- Title: A Study of Value-Aware Eigenoptions
- Title(参考訳): 価値を考慮した固有オプションの検討
- Authors: Harshil Kotamreddy, Marlos C. Machado,
- Abstract要約: モデルレス強化学習において,固有オプションが信用割当を促進できるかどうかを検討する。
事前特定された固有オプションは、探索だけでなく、クレジットの割り当てにも役立ち、オンライン発見はエージェントの経験を過度にバイアスし、学習を妨げる可能性がある。
- 参考スコア(独自算出の注目度): 6.084958172018792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Options, which impose an inductive bias toward temporal and hierarchical structure, offer a powerful framework for reinforcement learning (RL). While effective in sequential decision-making, they are often handcrafted rather than learned. Among approaches for discovering options, eigenoptions have shown strong performance in exploration, but their role in credit assignment remains underexplored. In this paper, we investigate whether eigenoptions can accelerate credit assignment in model-free RL, evaluating them in tabular and pixel-based gridworlds. We find that pre-specified eigenoptions aid not only exploration but also credit assignment, whereas online discovery can bias the agent's experience too strongly and hinder learning. In the context of deep RL, we also propose a method for learning option-values under non-linear function approximation, highlighting the impact of termination conditions on performance. Our findings reveal both the promise and complexity of using eigenoptions, and options more broadly, to simultaneously support credit assignment and exploration in reinforcement learning.
- Abstract(参考訳): 時間的・階層的な構造に対して帰納的バイアスを与えるオプションは、強化学習(RL)のための強力なフレームワークを提供する。
シーケンシャルな意思決定には効果的だが、学習するよりもむしろ手作りであることが多い。
選択肢を発見するためのアプローチの中で、固有オプションは探索において強いパフォーマンスを示したが、クレジット代入における彼らの役割はいまだに解明されていない。
本稿では,モデルレスRLにおける固有オプションが信用割当を促進できるかどうかを考察し,それを表やピクセルベースのグリッドワールドで評価する。
事前特定された固有オプションは、探索だけでなく、クレジットの割り当てにも役立ち、オンライン発見はエージェントの経験を過度にバイアスし、学習を妨げる可能性がある。
深いRLの文脈では、非線形関数近似の下でオプション値の学習方法も提案し、終端条件が性能に与える影響を強調した。
以上の結果から, 固有オプションの活用の約束と複雑さ, より広い範囲で, 信頼の割り当てと強化学習における探索を同時に支援する選択肢が明らかとなった。
関連論文リスト
- Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - Temporal Abstraction in Reinforcement Learning with the Successor
Representation [65.69658154078007]
我々は、後継表現(SR)が時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。
我々は、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-10-12T05:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。