論文の概要: TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence
- arxiv url: http://arxiv.org/abs/2505.24500v1
- Date: Fri, 30 May 2025 12:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.934512
- Title: TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence
- Title(参考訳): TimeHC-RL:LLMのソーシャルインテリジェンス向上のための時間的認知強化学習
- Authors: Guiyang Hou, Xing Gao, Yuchuan Wu, Xiang Huang, Wenqi Zhang, Zhe Zheng, Yongliang Shen, Jialu Du, Fei Huang, Yongbin Li, Weiming Lu,
- Abstract要約: 時空間認識型階層型認知強化学習(TimeHC-RL)を導入し,大規模言語モデルの社会的知性を高める。
実験の結果, 広く採用されているSystem 2 RL法と比較して, 提案したTimeHC-RL法の方が優れていることがわかった。
7Bのバックボーンモデルウィングが提供され、DeepSeek-R1やOpenAI-O3といった高度なモデルのパフォーマンスに匹敵する。
- 参考スコア(独自算出の注目度): 62.21106561772784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large Language Models (LLMs) have made significant progress in IQ-related domains that require careful thinking, such as mathematics and coding. However, enhancing LLMs' cognitive development in social domains, particularly from a post-training perspective, remains underexplored. Recognizing that the social world follows a distinct timeline and requires a richer blend of cognitive modes (from intuitive reactions (System 1) and surface-level thinking to deliberate thinking (System 2)) than mathematics, which primarily relies on System 2 cognition (careful, step-by-step reasoning), we introduce Temporal-aware Hierarchical Cognitive Reinforcement Learning (TimeHC-RL) for enhancing LLMs' social intelligence. In our experiments, we systematically explore improving LLMs' social intelligence and validate the effectiveness of the TimeHC-RL method, through five other post-training paradigms and two test-time intervention paradigms on eight datasets with diverse data patterns. Experimental results reveal the superiority of our proposed TimeHC-RL method compared to the widely adopted System 2 RL method. It gives the 7B backbone model wings, enabling it to rival the performance of advanced models like DeepSeek-R1 and OpenAI-O3. Additionally, the systematic exploration from post-training and test-time interventions perspectives to improve LLMs' social intelligence has uncovered several valuable insights.
- Abstract(参考訳): 近年,Large Language Models (LLMs) は,数学やコーディングといった注意深い思考を必要とするIQ関連領域において大きな進歩を遂げている。
しかし、社会領域におけるLLMの認知的発達の促進、特にポストトレーニングの観点からは、未解明のままである。
社会世界は、直感的な反応(システム1)や表面レベルでの思考から思考(システム2)まで、主にシステム2の認知(注意、ステップバイステップの推論)に依存している数学よりも認知モードの豊かなブレンドを必要とすることを認識し、LLMの社会的知性を高めるための時間的認識階層的認知強化学習(TimeHC-RL)を導入する。
本研究では,LLMのソーシャルインテリジェンスの改善とTimeHC-RL法の有効性を,他の5つのポストトレーニングパラダイムと2つのテストタイム介入パラダイムを通じて,多種多様なデータパターンを持つ8つのデータセット上で,体系的に検討した。
実験の結果, 広く採用されているSystem 2 RL法と比較して, 提案したTimeHC-RL法の方が優れていることがわかった。
7Bのバックボーンモデルウィングが提供され、DeepSeek-R1やOpenAI-O3といった高度なモデルのパフォーマンスに匹敵する。
さらに、LLMの社会的知性を改善するための訓練後およびテスト時の介入の観点からの体系的な調査は、いくつかの貴重な洞察を見出している。
関連論文リスト
- A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - From System 1 to System 2: A Survey of Reasoning Large Language Models [72.99519859756602]
基礎的な大規模言語モデルは、迅速な意思決定では優れているが、複雑な推論には深みがない。
OpenAIのo1/o3とDeepSeekのR1は、数学やコーディングといった分野のエキスパートレベルのパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-02-24T18:50:52Z) - CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks [39.43278448546028]
カーネマンの二重系理論は人間の意思決定過程を解明し、素早い直感的なシステム1と合理的なシステム2を区別する。
近年の大きな言語モデル (LLMs) は、認知タスクにおける人間レベルの習熟度に近づきやすいツールとして位置づけられている。
本研究では、自己学習を通じて、意図的な推論から直感的な応答へと進化するLLM(textbfCognidual Framework for LLMs, CFLLMs)について述べる。
論文 参考訳(メタデータ) (2024-09-05T09:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。