論文の概要: ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small LLMs
- arxiv url: http://arxiv.org/abs/2504.01698v2
- Date: Tue, 08 Apr 2025 03:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 10:05:13.367142
- Title: ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small LLMs
- Title(参考訳): ToM-RL:小さなLLMにおける心の理論を解き放つ強化学習
- Authors: Yi-Long Lu, Chunhui Zhang, Jiajun Song, Lifeng Fan, Wei Wang,
- Abstract要約: ルールに基づく強化学習は、小規模言語モデルにおいても、理論・オブ・マインド(ToM)推論能力を解き放つことができることを示す。
RLでトレーニングされた7Bモデルは、GPT-4oやDeepSeek-v3といったモデルを上回る、Hi-ToMベンチマークで84.50%の精度を実現しています。
これらの結果は、RLが社会的認知的推論を強化し、構造的問題解決とニュアンス的社会的推論のギャップを埋める可能性を強調している。
- 参考スコア(独自算出の注目度): 14.29992535286614
- License:
- Abstract: Recent advancements in rule-based reinforcement learning (RL), applied during the post-training phase of large language models (LLMs), have significantly enhanced their capabilities in structured reasoning tasks such as mathematics and logical inference. However, the effectiveness of RL in social reasoning, particularly in Theory of Mind (ToM), the ability to infer others' mental states, remains largely unexplored. In this study, we demonstrate that RL methods effectively unlock ToM reasoning capabilities even in small-scale LLMs (0.5B to 7B parameters). Using a modest dataset comprising 3200 questions across diverse scenarios, our RL-trained 7B model achieves 84.50\% accuracy on the Hi-ToM benchmark, surpassing models like GPT-4o and DeepSeek-v3 despite significantly fewer parameters. While smaller models ($\leq$3B parameters) suffer from reasoning collapse, larger models (7B parameters) maintain stable performance through consistent belief tracking. Additionally, our RL-based models demonstrate robust generalization to higher-order, out-of-distribution ToM problems, novel textual presentations, and previously unseen datasets. These findings highlight RL's potential to enhance social cognitive reasoning, bridging the gap between structured problem-solving and nuanced social inference in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の学習後段階に適用されたルールベース強化学習(RL)の最近の進歩は,数学や論理推論といった構造的推論タスクにおいて,その能力を大幅に向上させてきた。
しかし、社会的推論におけるRLの有効性、特に心の理論(ToM)では、他者の精神状態を推測する能力はほとんど解明されていない。
本研究では,小規模LLM(0.5Bから7Bのパラメータ)においても,RL法がToM推論能力を効果的に解き放つことを示す。
さまざまなシナリオにまたがる3200の質問からなる控えめなデータセットを使用して、我々のRLトレーニングされた7Bモデルは、パラメータが大幅に少ないにもかかわらず、GPT-4oやDeepSeek-v3といったモデルを上回る、Hi-ToMベンチマークで84.50\%の精度を達成する。
より小さなモデル(3Bパラメータ)は推論の崩壊に悩まされるが、より大きなモデル(7Bパラメータ)は一貫した信念追跡を通じて安定した性能を維持する。
さらに、我々のRLモデルでは、高次分布のToM問題、新しいテキストプレゼンテーション、以前は見られなかったデータセットへの堅牢な一般化を実証している。
これらの知見は、LLが社会的認知的推論を強化する可能性を示し、LLMにおける構造的問題解決とニュアンス的社会的推論のギャップを埋める。
関連論文リスト
- Towards Reasoning Ability of Small Language Models [3.732224317444325]
我々は,小言語モデル (SLM) が競争力のある推論性能を実現できることを示す。
14の推論ベンチマークで6つのモデルファミリーから72のSLMを体系的に調査し、ベンチマークし、分析した。
我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
論文 参考訳(メタデータ) (2025-02-17T08:59:16Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - A Survey on Model-based Reinforcement Learning [21.85904195671014]
強化学習(Reinforcement Learning, RL)は、環境と対話する試行錯誤プロセスを通じて、シーケンシャルな意思決定問題を解決する。
モデルベース強化学習(MBRL)は有望な方向であり、実際のコストなしで試行錯誤を行う環境モデルを構築する。
論文 参考訳(メタデータ) (2022-06-19T05:28:03Z) - Stock Trading Optimization through Model-based Reinforcement Learning
with Resistance Support Relative Strength [4.322320095367326]
我々は、モデルベース強化学習(MBRL)アルゴリズムにおける行動の正規化用語として、抵抗とサポート(RS)レベルを活用する新しいアプローチを設計する。
提案手法は、新型コロナウイルス(COVID-19)のパンデミック期、金融市場が予測不可能な危機に陥った時に、大きな下落(最大減損)にも耐えられる。
論文 参考訳(メタデータ) (2022-05-30T12:36:48Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。