論文の概要: LLM world models are mental: Output layer evidence of brittle world model use in LLM mechanical reasoning
- arxiv url: http://arxiv.org/abs/2507.15521v1
- Date: Mon, 21 Jul 2025 11:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.377462
- Title: LLM world models are mental: Output layer evidence of brittle world model use in LLM mechanical reasoning
- Title(参考訳): LLM世界モデルはメンタルである:LLMの機械的推論における脆性世界モデル使用の出力層証拠
- Authors: Cole Robertson, Philip Wolff,
- Abstract要約: 我々は、TikZ-rendered stimuliを用いて、プーリ系の問題に対して大きな言語モデル(LLM)をテストする。
LLMが機械的優位性(MA)を推定できるかどうかの検討
研究2は、LLMがMA推定に不可欠なグローバルな特徴を表すかどうかを検証した。
研究3では、LLMに接続された機能系と、重みに力を与えない整合系を比較するように求めた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Do large language models (LLMs) construct and manipulate internal world models, or do they rely solely on statistical associations represented as output layer token probabilities? We adapt cognitive science methodologies from human mental models research to test LLMs on pulley system problems using TikZ-rendered stimuli. Study 1 examines whether LLMs can estimate mechanical advantage (MA). State-of-the-art models performed marginally but significantly above chance, and their estimates correlated significantly with ground-truth MA. Significant correlations between number of pulleys and model estimates suggest that models employed a pulley counting heuristic, without necessarily simulating pulley systems to derive precise values. Study 2 tested this by probing whether LLMs represent global features crucial to MA estimation. Models evaluated a functionally connected pulley system against a fake system with randomly placed components. Without explicit cues, models identified the functional system as having greater MA with F1=0.8, suggesting LLMs could represent systems well enough to differentiate jumbled from functional systems. Study 3 built on this by asking LLMs to compare functional systems with matched systems which were connected up but which transferred no force to the weight; LLMs identified the functional system with F1=0.46, suggesting random guessing. Insofar as they may generalize, these findings are compatible with the notion that LLMs manipulate internal world models, sufficient to exploit statistical associations between pulley count and MA (Study 1), and to approximately represent system components' spatial relations (Study 2). However, they may lack the facility to reason over nuanced structural connectivity (Study 3). We conclude by advocating the utility of cognitive scientific methods to evaluate the world-modeling capacities of artificial intelligence systems.
- Abstract(参考訳): 大言語モデル(LLM)は内部世界モデルを構築し、操作するのか、それとも出力層トークン確率として表される統計的関連にのみ依存するのか?
我々は、人間の精神モデル研究から認知科学の方法論を応用し、TikZ-rendered stimuliを用いたプーリーシステム問題におけるLCMのテストを行う。
研究1は、LLMが機械的優位性(MA)を推定できるかどうかを検討する。
最先端モデルでは, 精度は比較的高いが, その推定値は, 接地トラストMAと有意に相関していた。
プーリの数とモデル推定との有意な相関は、モデルが正確な値を得るために必ずしもプーリシステムをシミュレートすることなく、プーリを数えるヒューリスティック(英語版)を採用したことを示唆している。
研究2は、LLMがMA推定に不可欠なグローバルな特徴を表すかどうかを検証してこれを検証した。
モデルは、ランダムに配置されたコンポーネントを持つ偽システムに対して、機能的に接続されたプーリシステムを評価した。
明示的な手がかりがなければ、モデルではF1=0.8でより大きいMAを持つ機能系を同定し、LLMが機能系とジャンブルドを区別するのに十分なシステムを表現できることを示唆した。
研究3は、LLMに、接続されているが重みに力を与えない整合系の機能系と比較するよう求め、LLMはF1=0.46で機能系を同定し、ランダムな推測を示唆した。
これらの結果は、LLMが内部世界モデルを操作するという概念と互換性があり、ルーシー数とMAの統計的関連を活用でき、システムコンポーネントの空間的関係を概ね表すのに十分である(Study 2)。
しかし、これらには、微妙な構造的な接続性について推論する能力が欠落している可能性がある(Study 3)。
我々は、人工知能システムの世界モデル能力を評価するための認知科学的手法の有用性を提唱する。
関連論文リスト
- LENS: Learning Ensemble Confidence from Neural States for Multi-LLM Answer Integration [0.0]
大きな言語モデル(LLM)は、様々なタスクで素晴らしいパフォーマンスを示しています。
LENS(Learning ENsemble confidence from Neural States)は、内部表現を分析してモデル信頼度を推定する新しい手法である。
論文 参考訳(メタデータ) (2025-07-31T00:35:45Z) - Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models [45.05285463251872]
我々は,新世代の大規模言語モデル(LLM)に不可欠なアプローチとして,新しい学習パラダイム - Modular Machine Learning (MML) を導入する。
MMLは、LLMの複雑な構造を、モジュラー表現、モジュラーモデル、モジュラー推論の3つの相互依存コンポーネントに分解する。
本稿では,非絡み合い表現学習,ニューラルアーキテクチャ探索,ニューロシンボリック学習などの高度な技術を活用して,MLに基づくLLMの実現の可能性を示す。
論文 参考訳(メタデータ) (2025-04-28T17:42:02Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - Heterogeneous Swarms: Jointly Optimizing Model Roles and Weights for Multi-LLM Systems [102.36545569092777]
モデルの役割と重みを協調的に最適化し,マルチLLMシステムを設計するアルゴリズムであるヘテロジニアス・スウォームを提案する。
実験により、異種群は12タスクの平均18.5%で15のロールベースおよび/またはウェイトベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-06T21:27:11Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Are You Being Tracked? Discover the Power of Zero-Shot Trajectory
Tracing with LLMs! [3.844253028598048]
LLMTrackは、ゼロショット軌道認識にLLMをどのように活用できるかを示すモデルである。
本研究では,屋内シナリオと屋外シナリオを特徴とする異なる軌跡を用いて,現実のデータセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-03-10T12:50:35Z) - Large Language Model-Based Interpretable Machine Learning Control in Building Energy Systems [3.0309252269809264]
本稿では、モデルとその推論の透明性と理解を高める機械学習(ML)の分野である、解釈可能な機械学習(IML)について検討する。
共有価値の原則とLarge Language Models(LLMs)のコンテキスト内学習機能を組み合わせた革新的なフレームワークを開発する。
本稿では,仮想テストベッドにおける需要応答イベント下での予測制御に基づく事前冷却モデルの実現可能性を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2024-02-14T21:19:33Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - A physics-constrained machine learning method for mapping gapless land
surface temperature [6.735896406986559]
本稿では,物理的意味と高精度なLSTを生成する物理MLモデルを提案する。
勾配入力としてリモートセンシングデータのみを使用する光発振機(LGBM)モデルは、純粋なMLモデルとして機能する。
純粋な物理法や純粋なML法と比較して、PC-LGBMモデルはLSTの予測精度と物理的解釈性を改善する。
論文 参考訳(メタデータ) (2023-07-03T01:44:48Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。