論文の概要: Probing the "Psyche'' of Large Reasoning Models: Understanding Through a Human Lens
- arxiv url: http://arxiv.org/abs/2512.00729v1
- Date: Sun, 30 Nov 2025 04:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.387104
- Title: Probing the "Psyche'' of Large Reasoning Models: Understanding Through a Human Lens
- Title(参考訳): 大規模推論モデルの「精神」を探る:人間のレンズを通しての理解
- Authors: Yuxiang Chen, Zuohan Wu, Ziwei Wang, Xiangning Yu, Xujia Li, Linyi Yang, Mengyue Yang, Jun Wang, Lei Chen,
- Abstract要約: 大規模推論モデル(LRM)は、複雑なタスクに対処する際、例外的な能力のため、研究者から大きな注目を集めている。
本稿では、原子推論のステップを特徴付け、LEM知能の「精神」を調査するための包括的分類法を提案する。
人間の精神過程から派生した5つのグループと17のカテゴリから構成されており、学際的な観点からのLRMの理解の基礎となっている。
- 参考スコア(独自算出の注目度): 28.277723085755806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) have garnered significant attention from researchers owing to their exceptional capability in addressing complex tasks. Motivated by the observed human-like behaviors in their reasoning processes, this paper introduces a comprehensive taxonomy to characterize atomic reasoning steps and probe the ``psyche'' of LRM intelligence. Specifically, it comprises five groups and seventeen categories derived from human mental processes, thereby grounding the understanding of LRMs in an interdisciplinary perspective. The taxonomy is then applied for an in-depth understanding of current LRMs, resulting in a distinct labeled dataset that comprises 277,534 atomic reasoning steps. Using this resource, we analyze contemporary LRMs and distill several actionable takeaways for improving training and post-training of reasoning models. Notably, our analysis reveals that prevailing post-answer ``double-checks'' (self-monitoring evaluations) are largely superficial and rarely yield substantive revisions. Thus, incentivizing comprehensive multi-step reflection, rather than simple self-monitoring, may offer a more effective path forward. To complement the taxonomy, an automatic annotation framework, named CAPO, is proposed to leverage large language models (LLMs) for generating the taxonomy-based annotations. Experimental results demonstrate that CAPO achieves higher consistency with human experts compared to baselines, facilitating a scalable and comprehensive analysis of LRMs from a human cognitive perspective. Together, the taxonomy, CAPO, and the derived insights provide a principled, scalable path toward understanding and advancing LRM reasoning.
- Abstract(参考訳): 大規模推論モデル(LRM)は、複雑なタスクに対処する際、例外的な能力のため、研究者から大きな注目を集めている。
そこで本研究では, 原子的推論ステップを特徴付ける包括的分類法を導入し, LRM知能の「精神」を解明する。
具体的には、人間の精神過程から派生した5つのグループと17のカテゴリから構成されており、学際的な観点からのLEMの理解の基礎となっている。
この分類法は現在のLEMの詳細な理解に応用され、277,534個の原子推論ステップからなるラベル付きデータセットが作られる。
この資源を用いて, 現代のLEMを解析し, 推論モデルのトレーニングおよび後学習を改善するために, いくつかの実行可能なテイクアウトを蒸留する。
分析の結果,「自己監視評価」は表面的であり,実質的な修正がほとんど得られないことが判明した。
したがって、単純な自己監視よりも包括的な多段階反射をインセンティブ化する方が、より効果的な進路を提供するかもしれない。
分類学を補完するために、CAPOと呼ばれる自動アノテーションフレームワークが提案され、分類学に基づくアノテーションを生成するために大きな言語モデル(LLM)を利用する。
実験の結果,CAPOはベースラインよりも人間専門家との整合性が高く,人間の認知的視点からLRMをスケーラブルかつ包括的に分析することが示唆された。
分類学、CAPO、およびそこから導かれた洞察は、LRM推論の理解と進歩への原則的かつスケーラブルな道を提供する。
関連論文リスト
- From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Reasoning Meets Personalization: Unleashing the Potential of Large Reasoning Model for Personalized Generation [21.89080753903469]
パーソナライズタスクのための大規模推論モデル(LRM)の最初の体系的評価について述べる。
本分析では, 分散思考, 応答形式の不整合, 検索情報の有効利用の3つの重要な限界を同定した。
階層的推論思考テンプレートを組み込んだ新しいフレームワークであるReinforced Reasoning for Personalization (model)を提案する。
論文 参考訳(メタデータ) (2025-05-23T07:30:13Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - What Are Step-Level Reward Models Rewarding? Counterintuitive Findings from MCTS-Boosted Mathematical Reasoning [15.73202912525793]
ステップレベルの報酬モデル(SRM)は、強化学習に基づくプロセスの監督やステップレベルの優先順位調整を通じて、数学的推論性能を著しく向上させることができる。
近年,モンテカルロ木探索(MCTS)をステップレベルの自動選好アノテーションとして用いたAlphaZeroのような手法が特に有効であることが証明されている。
本研究は,コヒーレンスの直感的側面,特にMCTSに基づくアプローチに着目したものである。
論文 参考訳(メタデータ) (2024-12-20T13:56:23Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。