論文の概要: When Can Model-Free Reinforcement Learning be Enough for Thinking?
- arxiv url: http://arxiv.org/abs/2506.17124v1
- Date: Fri, 20 Jun 2025 16:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.538951
- Title: When Can Model-Free Reinforcement Learning be Enough for Thinking?
- Title(参考訳): モデルなし強化学習はいつ、考えるのに十分か?
- Authors: Josiah P. Hanna, Nicholas E. Corrado,
- Abstract要約: 本稿では、モデルフリーRLが報酬戦略として「思考」に導く時期について、ドメインに依存しない理解を構築する。
我々は、思考行動は、行動を続ける前に政策改善のステップを実行することを選択したエージェントに匹敵するものであることを正式に示す。
そして、我々の理論がモデルフリーなRLが思考ライクな振る舞いを生み出すために必要な条件を満たすことを、オープンソースLLMが示している。
- 参考スコア(独自算出の注目度): 3.5253513747455303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on large language models has demonstrated the use of model-free reinforcement learning (RL) to train reasoning-like capabilities. The emergence of "thinking" through model-free RL is interesting as thinking actions neither produce reward nor change the external world state to one where the agent is more likely to get reward. This paper seeks to build a domain-independent understanding of when model-free RL will lead to "thinking" as a strategy for reward maximization. To build this understanding, we first introduce a theoretical model which we call a \textit{thought Markov decision process} (MDP). Thought MDPs minimally extend the classical MDP model to include an abstract notion of thought state and thought action. Using the thought MDP model, we prove the importance of policy initialization in determining whether or not thinking emerges and show formally that thought actions are equivalent to the agent choosing to perform a step of policy improvement before continuing to act. We then show that open-source LLMs satisfy the conditions that our theory predicts are necessary for model-free RL to produce thinking-like behavior. Finally, we hypothesize sufficient conditions that would enable thinking to be learned outside of language generation and introduce a toy domain where a combination of multi-task pre-training and designated thought actions enable more data-efficient RL compared to non-thinking agents.
- Abstract(参考訳): 大規模言語モデルに関する最近の研究は、モデルフリー強化学習(RL)を用いて推論のような能力の訓練を行っている。
モデルフリーRLによる思考」の出現は、思考行動が報酬を生み出したり、外部の世界の状態を変化させたりしないので興味深い。
本稿では,モデルフリーRLが報酬最大化の戦略として「思考」に導く時期について,ドメインに依存しない理解を構築することを目的とする。
この理解を深めるために,我々はまず,<textit{ Thought Markov decision process} (MDP) と呼ばれる理論モデルを導入する。
思想的MDPは、思考状態と思考行動の抽象的な概念を含むように、古典的MDPモデルを最小限に拡張する。
思考MDPモデルを用いて、思考が出現するか否かを判断する上で、政策初期化の重要性を証明し、思考行動が行動を続ける前に政策改善のステップを実行することを選択したエージェントと正式に同等であることを示す。
そして、我々の理論がモデルフリーなRLが思考ライクな振る舞いを生み出すために必要な条件を満たすことを、オープンソースLLMが示している。
最後に、言語生成の外部で思考を学習できる十分な条件を仮定し、マルチタスク事前学習と指定された思考行動の組み合わせが、非思考エージェントよりもデータ効率のよいRLを実現する玩具ドメインを導入する。
関連論文リスト
- Deontically Constrained Policy Improvement in Reinforcement Learning Agents [0.0]
マルコフ決定プロセス(MDP)は、機械学習コミュニティにおいて不確実性の下で意思決定を行うための最も一般的なモデルである。
MDPは非決定性、確率的不確実性、および明示的な行動モデルを取得する。
強化学習(RL)エージェントは、実用機能を最大化することにより、MDPで行動することを学ぶ。
論文 参考訳(メタデータ) (2025-06-08T01:01:06Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [45.33952788910874]
TONは視覚言語モデルの2段階のトレーニング戦略である。
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Enter the Void - Planning to Seek Entropy When Reward is Scarce [6.208654695856247]
本稿では,短時間の潜伏予測を用いて,高エントロピー状態の予測と探索を積極的に行う新しい手法を提案する。
提案する階層型プランナは,いつ計画を立てるか,地平線の長さを計画し,報酬とエントロピーの重み付けを動的に行う。
提案手法は,Dreamerのコンバージェンスにおいて,Dreamerのコンバージェンスよりも50%高速で,Dreamerが必要とする環境ステップの60%に,想像力で訓練されたポリシーが収束する。
論文 参考訳(メタデータ) (2025-05-22T15:28:50Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。