論文の概要: Unrewarded Exploration in Large Language Models Reveals Latent Learning from Psychology
- arxiv url: http://arxiv.org/abs/2601.22474v1
- Date: Fri, 30 Jan 2026 02:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.170789
- Title: Unrewarded Exploration in Large Language Models Reveals Latent Learning from Psychology
- Title(参考訳): 大規模言語モデルにおける未知の探索 : 心理学からの潜在学習
- Authors: Jian Xiong, Jingbo Zhou, Zihan Zhou, Yixiong Xiao, Le Zhang, Jingyong Ye, Rui Qian, Yang Zhou, Dejing Dou,
- Abstract要約: 大規模言語モデル(LLM)が潜在学習力学を示すことを示す。
LLMは2段階の探査体制の下で訓練後、報酬に基づく強化学習で訓練後のものよりも高い能力を達成する。
- 参考スコア(独自算出の注目度): 41.05763794816626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent learning, classically theorized by Tolman, shows that biological agents (e.g., rats) can acquire internal representations of their environment without rewards, enabling rapid adaptation once rewards are introduced. In contrast, from a cognitive science perspective, reward learning remains overly dependent on external feedback, limiting flexibility and generalization. Although recent advances in the reasoning capabilities of large language models (LLMs), such as OpenAI-o1 and DeepSeek-R1, mark a significant breakthrough, these models still rely primarily on reward-centric reinforcement learning paradigms. Whether and how the well-established phenomenon of latent learning in psychology can inform or emerge within LLMs' training remains largely unexplored. In this work, we present novel findings from our experiments that LLMs also exhibit the latent learning dynamics. During an initial phase of unrewarded exploration, LLMs display modest performance improvements, as this phase allows LLMs to organize task-relevant knowledge without being constrained by reward-driven biases, and performance is further enhanced once rewards are introduced. LLMs post-trained under this two-stage exploration regime ultimately achieve higher competence than those post-trained with reward-based reinforcement learning throughout. Beyond these empirical observations, we also provide theoretical analyses for our experiments explaining why unrewarded exploration yields performance gains, offering a mechanistic account of these dynamics. Specifically, we conducted extensive experiments across multiple model families and diverse task domains to establish the existence of the latent learning dynamics in LLMs.
- Abstract(参考訳): トルマンによって古典的に理論化された潜在学習は、生物学的エージェント(例えばラット)が報酬なしで環境の内部表現を取得でき、報酬が導入されたら迅速に適応できることを示している。
対照的に、認知科学の観点から見れば、報酬学習は外部からのフィードバックに過度に依存し、柔軟性と一般化を制限している。
OpenAI-o1やDeepSeek-R1のような大規模言語モデル(LLM)の推論能力の最近の進歩は大きなブレークスルーとなったが、これらのモデルは主に報酬中心の強化学習パラダイムに依存している。
心理学における潜伏学習の確立された現象が、LLMsのトレーニングの中でどのように通知されるか、どのように現れるかは、いまだに未解明のままである。
本研究は,LLMが潜在学習のダイナミクスを示す新たな知見を示すものである。
このフェーズでは、LLMは報酬駆動バイアスに制約されることなくタスク関連知識を整理することができ、報酬が導入されたらさらに性能が向上する。
この2段階の探査体制の下で訓練後、LLMは最終的に報酬に基づく強化学習で訓練後のものよりも高い能力を達成する。
これらの経験的観察の他に、不逆探索がなぜ性能向上をもたらすのかを説明する実験の理論的分析も提供し、これらの力学の力学的な説明を提供する。
具体的には、複数のモデルファミリーと多様なタスクドメインにまたがる広範な実験を行い、LLMにおける潜在学習ダイナミクスの存在を確立した。
関連論文リスト
- Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Large Language Models Think Too Fast To Explore Effectively [0.0]
LLM(Large Language Models)は、多くの知的能力を持つ言語である。
本研究では,オープンエンドタスクにおいて,LLMが人間を超えることができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-01-29T21:51:17Z) - Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning [7.803423399566274]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。
本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。
我々は,ヒトの嗜好を予測するために,最大85%の精度で報酬モデルを抽出し,様々な大きさの毒性に整合したLSMの実験を行った。
論文 参考訳(メタデータ) (2024-10-16T12:14:25Z) - Supporting Self-Reflection at Scale with Large Language Models: Insights from Randomized Field Experiments in Classrooms [7.550701021850185]
本研究では,大規模言語モデル (LLMs) が学生の反省会後リフレクションに役立てる可能性について検討する。
大学コンピュータサイエンス科でランダムフィールド実験を2回行った。
論文 参考訳(メタデータ) (2024-06-01T02:41:59Z) - Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。
我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - ExpeL: LLM Agents Are Experiential Learners [57.13685954854463]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。