論文の概要: Is there Value in Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2505.04822v1
- Date: Wed, 07 May 2025 21:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.684027
- Title: Is there Value in Reinforcement Learning?
- Title(参考訳): 強化学習に価値はあるか?
- Authors: Lior Fox, Yonatan Loewenstein,
- Abstract要約: アクション・バリューは、一般的なReinforcement Learing(RL)の行動モデルにおいて中心的な役割を果たす。
批評家は、ポリシー・グラディエント(PG)モデルが価値ベース(VB)モデルよりも好まれるべきであると示唆していた。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action-values play a central role in popular Reinforcement Learing (RL) models of behavior. Yet, the idea that action-values are explicitly represented has been extensively debated. Critics had therefore repeatedly suggested that policy-gradient (PG) models should be favored over value-based (VB) ones, as a potential solution for this dilemma. Here we argue that this solution is unsatisfying. This is because PG methods are not, in fact, "Value-free" -- while they do not rely on an explicit representation of Value for acting (stimulus-response mapping), they do require it for learning. Hence, switching to PG models is, per se, insufficient for eliminating Value from models of behavior. More broadly, the requirement for a representation of Value stems from the underlying assumptions regarding the optimization objective posed by the standard RL framework, not from the particular algorithm chosen to solve it. Previous studies mostly took these standard RL assumptions for granted, as part of their conceptualization or problem modeling, while debating the different methods used to optimize it (i.e., PG or VB). We propose that, instead, the focus of the debate should shift to critically evaluating the underlying modeling assumptions. Such evaluation is particularly important from an experimental perspective. Indeed, the very notion of Value must be reconsidered when standard assumptions (e.g., risk neutrality, full-observability, Markovian environment, exponential discounting) are relaxed, as is likely in natural settings. Finally, we use the Value debate as a case study to argue in favor of a more nuanced, algorithmic rather than statistical, view of what constitutes "a model" in cognitive sciences. Our analysis suggests that besides "parametric" statistical complexity, additional aspects such as computational complexity must also be taken into account when evaluating model complexity.
- Abstract(参考訳): アクション・バリューは、一般的なReinforcement Learing(RL)の行動モデルにおいて中心的な役割を果たす。
しかし、アクション値が明示的に表されるという考えは広く議論されている。
批判者は、このジレンマの潜在的な解決策として、ポリシー・グラディエント(PG)モデルは価値ベース(VB)モデルよりも好まれるべきであると繰り返し示唆していた。
ここでは、この解決策は満足できないと論じる。
これは PG メソッドが実際には "Value-free" ではないためである -- 行動(刺激-応答マッピング)に値の明示的表現を頼らないが、学習にはそれが必要であるためである。
したがって、PGモデルへの切り替えは、それ自体は、振る舞いのモデルから価値を排除するのに不十分である。
より広義には、値の表現の要件は、標準RLフレームワークが提案する最適化目標に関する基礎的な仮定に起因しており、それを解決するために選択された特定のアルゴリズムからではない。
これまでの研究は、概念化や問題モデリングの一部として、これらの標準のRL仮定を当然としていたが、最適化に使用される様々な手法(PGやVBなど)を議論した。
代わりに、議論の焦点は、基礎となるモデリングの前提を批判的に評価することに移るべきである。
このような評価は特に実験的な観点から重要である。
実際、バリューの概念は、通常の仮定(例えば、リスク中立性、フルオブザーバビリティ、マルコフ環境、指数割引など)が自然条件と同様に緩和されたときに再検討されなければならない。
最後に、我々はバリュー・ディスカッションをケーススタディとして利用し、認知科学における「モデル」を構成するものについての統計的ではなく、より曖昧でアルゴリズム的な見解を支持する。
我々の分析は、"パラメトリック"な統計複雑性に加えて、計算複雑性のような追加の側面も、モデル複雑性を評価する際に考慮する必要があることを示唆している。
関連論文リスト
- Large Language Models Reasoning Abilities Under Non-Ideal Conditions After RL-Fine-Tuning [33.27410930782468]
脳科学的な知見によって導かれる新たな研究の方向性を紹介する。
本稿では,3つの大規模言語モデル (LLM) と,RL(Reinforcement Learning) を用いた最先端の大規模視覚言語モデル (LVLM) を代表的なポリシー勾配アルゴリズムを用いて微調整する。
その結果、RLファインチューニングは、理想的な設定下でのベースライン推論を改善するが、3つの非理想シナリオ全てで性能は著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-08-06T19:51:29Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning [21.931580762349096]
本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
論文 参考訳(メタデータ) (2022-06-04T23:36:38Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - The Value Equivalence Principle for Model-Based Reinforcement Learning [29.368870568214007]
モデルベースRLエージェントの限られた表現資源は、価値ベースプランニングに直接有用なモデルを構築するのによく使われていると論じる。
検討されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小することを示す。
価値等価性の原理は、RLにおける最近の経験的成功の根底にあると論じる。
論文 参考訳(メタデータ) (2020-11-06T18:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。