論文の概要: Is there Value in Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2505.04822v1
- Date: Wed, 07 May 2025 21:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.684027
- Title: Is there Value in Reinforcement Learning?
- Title(参考訳): 強化学習に価値はあるか?
- Authors: Lior Fox, Yonatan Loewenstein,
- Abstract要約: アクション・バリューは、一般的なReinforcement Learing(RL)の行動モデルにおいて中心的な役割を果たす。
批評家は、ポリシー・グラディエント(PG)モデルが価値ベース(VB)モデルよりも好まれるべきであると示唆していた。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action-values play a central role in popular Reinforcement Learing (RL) models of behavior. Yet, the idea that action-values are explicitly represented has been extensively debated. Critics had therefore repeatedly suggested that policy-gradient (PG) models should be favored over value-based (VB) ones, as a potential solution for this dilemma. Here we argue that this solution is unsatisfying. This is because PG methods are not, in fact, "Value-free" -- while they do not rely on an explicit representation of Value for acting (stimulus-response mapping), they do require it for learning. Hence, switching to PG models is, per se, insufficient for eliminating Value from models of behavior. More broadly, the requirement for a representation of Value stems from the underlying assumptions regarding the optimization objective posed by the standard RL framework, not from the particular algorithm chosen to solve it. Previous studies mostly took these standard RL assumptions for granted, as part of their conceptualization or problem modeling, while debating the different methods used to optimize it (i.e., PG or VB). We propose that, instead, the focus of the debate should shift to critically evaluating the underlying modeling assumptions. Such evaluation is particularly important from an experimental perspective. Indeed, the very notion of Value must be reconsidered when standard assumptions (e.g., risk neutrality, full-observability, Markovian environment, exponential discounting) are relaxed, as is likely in natural settings. Finally, we use the Value debate as a case study to argue in favor of a more nuanced, algorithmic rather than statistical, view of what constitutes "a model" in cognitive sciences. Our analysis suggests that besides "parametric" statistical complexity, additional aspects such as computational complexity must also be taken into account when evaluating model complexity.
- Abstract(参考訳): アクション・バリューは、一般的なReinforcement Learing(RL)の行動モデルにおいて中心的な役割を果たす。
しかし、アクション値が明示的に表されるという考えは広く議論されている。
批判者は、このジレンマの潜在的な解決策として、ポリシー・グラディエント(PG)モデルは価値ベース(VB)モデルよりも好まれるべきであると繰り返し示唆していた。
ここでは、この解決策は満足できないと論じる。
これは PG メソッドが実際には "Value-free" ではないためである -- 行動(刺激-応答マッピング)に値の明示的表現を頼らないが、学習にはそれが必要であるためである。
したがって、PGモデルへの切り替えは、それ自体は、振る舞いのモデルから価値を排除するのに不十分である。
より広義には、値の表現の要件は、標準RLフレームワークが提案する最適化目標に関する基礎的な仮定に起因しており、それを解決するために選択された特定のアルゴリズムからではない。
これまでの研究は、概念化や問題モデリングの一部として、これらの標準のRL仮定を当然としていたが、最適化に使用される様々な手法(PGやVBなど)を議論した。
代わりに、議論の焦点は、基礎となるモデリングの前提を批判的に評価することに移るべきである。
このような評価は特に実験的な観点から重要である。
実際、バリューの概念は、通常の仮定(例えば、リスク中立性、フルオブザーバビリティ、マルコフ環境、指数割引など)が自然条件と同様に緩和されたときに再検討されなければならない。
最後に、我々はバリュー・ディスカッションをケーススタディとして利用し、認知科学における「モデル」を構成するものについての統計的ではなく、より曖昧でアルゴリズム的な見解を支持する。
我々の分析は、"パラメトリック"な統計複雑性に加えて、計算複雑性のような追加の側面も、モデル複雑性を評価する際に考慮する必要があることを示唆している。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning [21.931580762349096]
本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
論文 参考訳(メタデータ) (2022-06-04T23:36:38Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - The Value Equivalence Principle for Model-Based Reinforcement Learning [29.368870568214007]
モデルベースRLエージェントの限られた表現資源は、価値ベースプランニングに直接有用なモデルを構築するのによく使われていると論じる。
検討されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小することを示す。
価値等価性の原理は、RLにおける最近の経験的成功の根底にあると論じる。
論文 参考訳(メタデータ) (2020-11-06T18:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。