論文の概要: UniCog: Uncovering Cognitive Abilities of LLMs through Latent Mind Space Analysis
- arxiv url: http://arxiv.org/abs/2601.17897v1
- Date: Sun, 25 Jan 2026 16:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.518276
- Title: UniCog: Uncovering Cognitive Abilities of LLMs through Latent Mind Space Analysis
- Title(参考訳): UniCog: ラテントマインドスペース分析によるLLMの認知能力の解明
- Authors: Jiayu Liu, Yinhe Long, Zhenya Huang, Enhong Chen,
- Abstract要約: 成長する研究機関は、大きな言語モデル(LLM)の認知過程が人間のものと根本的に異なることを示唆している。
潜在心空間を介してLLM認知を分析する統一フレームワークUniCogを提案する。
- 参考スコア(独自算出の注目度): 69.50752734049985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing body of research suggests that the cognitive processes of large language models (LLMs) differ fundamentally from those of humans. However, existing interpretability methods remain limited in explaining how cognitive abilities are engaged during LLM reasoning. In this paper, we propose UniCog, a unified framework that analyzes LLM cognition via a latent mind space. Formulated as a latent variable model, UniCog encodes diverse abilities from dense model activations into sparse, disentangled latent dimensions. Through extensive analysis on six advanced LLMs, including DeepSeek-V3.2 and GPT-4o, we reveal a Pareto principle of LLM cognition, where a shared reasoning core is complemented by ability-specific signatures. Furthermore, we discover that reasoning failures often manifest as anomalous intensity in latent activations. These findings opens a new paradigm in LLM analysis, providing a cognition grounded view of reasoning dynamics. Finally, leveraging these insights, we introduce a latent-informed candidate prioritization strategy, which improves reasoning performance by up to 7.5% across challenging benchmarks. Our code is available at https://github.com/milksalute/unicog.
- Abstract(参考訳): 成長する研究機関は、大きな言語モデル(LLM)の認知過程が人間のものと根本的に異なることを示唆している。
しかし、既存の解釈可能性法は、LLM推論において認知能力がどのように関与しているかを説明するのに限られている。
本稿では,LLM認知を潜在心空間を介して解析する統合フレームワークUniCogを提案する。
潜在変数モデルとして定式化されたUniCogは、密度の高いモデルの活性化からスパースな非絡み合いの潜在次元への多様な能力をエンコードする。
DeepSeek-V3.2 や GPT-4o を含む 6 つの先進 LLM の広範な解析を通して、我々は LLM 認知のパレート原理を明らかにする。
さらに, 遅延活性化において, 推論障害が異常強度として現れることが判明した。
これらの知見は、LLM分析の新しいパラダイムを開き、推論力学の認知基盤的な視点を提供する。
最後に、これらの洞察を活用するために、潜在インフォームド候補優先順位付け戦略を導入し、挑戦的なベンチマークで推論性能を最大7.5%向上させる。
私たちのコードはhttps://github.com/milksalute/unicog.comで公開されています。
関連論文リスト
- The Erosion of LLM Signatures: Can We Still Distinguish Human and LLM-Generated Scientific Ideas After Iterative Paraphrasing? [0.7162422068114824]
我々は、人間とLLM生成するアイデアを区別する最先端の機械学習モデル(SOTA)の能力を評価する。
この結果は,SOTAモデルがソース属性に直面する課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-12-04T23:22:21Z) - Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - MM-OPERA: Benchmarking Open-ended Association Reasoning for Large Vision-Language Models [15.929002709503921]
我々は、根本的だが未解明の知性、すなわち結束を評価することを目指している。
MM-OPERAは、2つのオープンエンドタスクにまたがる11,497のインスタンスを持つ体系的なベンチマークである。
異なる思考と収束した連想的推論の精神に類似するようにLVLMに挑戦する。
論文 参考訳(メタデータ) (2025-10-30T18:49:06Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Large Language Models Think Too Fast To Explore Effectively [0.0]
LLM(Large Language Models)は、多くの知的能力を持つ言語である。
本研究では,オープンエンドタスクにおいて,LLMが人間を超えることができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-01-29T21:51:17Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。