論文の概要: Trapped in the past? Disentangling fluid and crystallized intelligence of large language models using chess
- arxiv url: http://arxiv.org/abs/2601.16823v1
- Date: Fri, 23 Jan 2026 15:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.744207
- Title: Trapped in the past? Disentangling fluid and crystallized intelligence of large language models using chess
- Title(参考訳): 過去に追跡された?チェスを用いた大規模言語モデルの流体と結晶化インテリジェンス
- Authors: Leonard S. Pleiss, Maximilian Schiffer, Robert K. von Weizsäcker,
- Abstract要約: 大規模言語モデル(LLM)は優れた能力を示すが、これらが高度なリコール(結晶化インテリジェンス)や推論能力(流動化インテリジェンス)をどの程度反映しているかは定かではない。
チェスはこれらの学部を遠ざけるための制御されたテストベッドとして導入する。
本研究は,記憶によって解決可能な共通状態から,第一原理推論を必要とする新規状態まで,訓練コーパスに近接する位置の分類を構築した。
- 参考スコア(独自算出の注目度): 2.8904578737516764
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) exhibit remarkable capabilities, yet it remains unclear to what extent these reflect sophisticated recall (crystallized intelligence) or reasoning ability (fluid intelligence). We introduce chess as a controlled testbed for disentangling these faculties. Leveraging the game's structure and scalable engine evaluations, we construct a taxonomy of positions varying in training corpus proximity--ranging from common states solvable by memorization to novel ones requiring first-principles reasoning. We systematically evaluate multiple GPT generations under varying reasoning intensities. Our analysis reveals a clear gradient: performance consistently degrades as fluid intelligence demands increase. Notably, in out-of-distribution tasks, performance collapses to random levels. While newer models improve, progress slows significantly for tasks outside the training distribution. Furthermore, while reasoning-augmented inference improves performance, its marginal benefit per token decreases with distributional proximity. These results suggest current architectures remain limited in systematic generalization, highlighting the need for mechanisms beyond scale to achieve robust fluid intelligence.
- Abstract(参考訳): 大規模言語モデル(LLM)は優れた能力を示すが、これらが高度なリコール(結晶化インテリジェンス)や推論能力(流動化インテリジェンス)をどの程度反映しているかは未だ不明である。
チェスはこれらの学部を遠ざけるための制御されたテストベッドとして導入する。
ゲームの構造と拡張性のあるエンジン評価を活用し、記憶によって解決可能な共通状態から、第一原理推論を必要とする新しい状態まで、トレーニングコーパスに近い位置の分類を構築した。
異なる推論強度で複数のGPT世代を系統的に評価した。
流体知能の要求が増加するにつれて、性能は一貫して低下する。
特に、アウト・オブ・ディストリビューションタスクでは、パフォーマンスはランダムなレベルに低下します。
新しいモデルは改善されるが、トレーニングディストリビューション外のタスクでは、進捗が大幅に遅くなる。
さらに、推理強化推論により性能が向上する一方、トークン当たりの限界利益は分布近接により減少する。
これらの結果は、現在のアーキテクチャは体系的な一般化において制限され続けていることを示唆し、堅牢な流体知性を達成するためのスケールを超えたメカニズムの必要性を強調している。
関連論文リスト
- How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - CounterVQA: Evaluating and Improving Counterfactual Reasoning in Vision-Language Models for Video Understanding [13.628041236679229]
視覚言語モデル(VLM)は近年,映像理解の大幅な進歩を見せている。
ビデオベースのベンチマークであるCounterVQAを導入する。
本研究は,言語モーダルから対実的推論能力を蒸留することにより,モデルの視覚的対実的推論能力を高めるポストトレーニング手法CFGPTを開発した。
論文 参考訳(メタデータ) (2025-11-25T04:59:55Z) - AI Agents as Universal Task Solvers [94.49762121230042]
我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。
我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
論文 参考訳(メタデータ) (2025-10-14T02:17:54Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling [60.63703438729223]
異なるアーキテクチャとトレーニング手法がモデル多段階推論能力にどのように影響するかを示す。
我々は,逐次計算においてモデル深度の増加が重要な役割を担っていることを確認した。
論文 参考訳(メタデータ) (2025-08-22T18:57:08Z) - Superficial Self-Improved Reasoners Benefit from Model Merging [49.09091498084467]
高品質データコーパスの合成ソリューションとしての自己改善
特に,本分析の結果から,LMがドメイン内推論の精度を向上したとしても,それらの一般的な推論能力を損なうことが判明した。
提案手法は,オリジナルモデルと自己改善モデルとの重みを戦略的に組み合わせ,一般化を保ちながら反復モデルマージング(IMM)を提案する。
論文 参考訳(メタデータ) (2025-03-03T22:41:25Z) - Emergent Abilities in Large Language Models: A Survey [9.50669909278749]
大規模言語モデル(LLM)は、人工知能への最も有望な研究の流れの1つとして、新しい技術革命を導いている。
これらのモデルのスケーリングは、以前は観測されていなかった様々な創発的能力と関連付けられている。
これらの能力は、高度な推論やコンテキスト内学習からコーディングや問題解決まで多岐にわたる。
トランスフォーメーションの可能性にもかかわらず、創発的能力は未理解のままであり、定義、性質、予測可能性、含意について誤解を招く。
論文 参考訳(メタデータ) (2025-02-28T01:20:01Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Essentials for Class Incremental Learning [43.306374557919646]
CIFAR-100とImageNetのクラスインクリメンタルな学習結果は、アプローチをシンプルに保ちながら、最先端の成果を大きなマージンで改善します。
論文 参考訳(メタデータ) (2021-02-18T18:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。