論文の概要: Do Larger Language Models Generalize Better? A Scaling Law for Implicit Reasoning at Pretraining Time
- arxiv url: http://arxiv.org/abs/2504.03635v3
- Date: Sun, 28 Sep 2025 21:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.880817
- Title: Do Larger Language Models Generalize Better? A Scaling Law for Implicit Reasoning at Pretraining Time
- Title(参考訳): 大規模言語モデルはより一般化されるか? 事前学習時の暗黙の推論のためのスケーリング法則
- Authors: Xinyi Wang, Shawn Tan, Shenbo Xu, Mingyu Jin, William Yang Wang, Rameswar Panda, Yikang Shen,
- Abstract要約: この研究は、モデルサイズのスケーリングによる直感的効果を示し、言語モデル(LM)におけるスケーリングと推論の関係に関する新たな洞察を提供する。
我々は,実世界の大規模知識グラフの構造と分布を再現する合成暗黙のマルチホップ推論環境において,ゼロからLMを事前学習する。
次に、実世界の事前学習における暗黙的推論の単純化とみなすことができるマルチホップ推論を必要とする、グラフの欠落したエッジを完遂するLMの能力を評価する。
- 参考スコア(独自算出の注目度): 73.22651918134808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning is an integral part of many tasks performed by language models (LMs). However, the effects of scaling model sizes and data on reasoning abilities at pretraining time remain understudied. To rigorously investigate this problem, we pretrain LMs from scratch on a synthetic implicit multihop reasoning environment designed to closely replicate the structure and distribution of real-world large-scale knowledge graphs. We then assess the LMs' ability to complete the missing edges in the graph, which requires multi-hop reasoning that can be viewed as a simplification of implicit reasoning during real-world pretraining. Interestingly, we observe that overparameterization can impair the implicit reasoning performance due to excessive memorization. We investigate different factors that affect the loss curve when scaling different components of the knowledge graph, model size, and training steps. To predict the optimal model size for a specific knowledge graph, we find an empirical scaling law that shows optimal-sized LMs can approximately reason over 0.008 bit information per parameter. This work shows counterintuitive effects of model size scaling and provides new insights into the relationship between scaling and reasoning in LLMs.
- Abstract(参考訳): 推論は言語モデル(LM)によって実行される多くのタスクの不可欠な部分である。
しかし, モデルサイズとデータのスケーリングが事前学習時の推論能力に及ぼす影響については, 未検討のままである。
本研究では,実世界の大規模知識グラフの構造と分布を忠実に再現する合成暗黙のマルチホップ推論環境上で,ゼロからLMを事前学習する。
次に、実世界の事前学習における暗黙的推論の単純化とみなすことができるマルチホップ推論を必要とする、グラフの欠落したエッジを完遂するLMの能力を評価する。
興味深いことに、過度な記憶が原因で、過度なパラメータ化が暗黙的な推論性能を損なう可能性がある。
知識グラフの異なるコンポーネント,モデルサイズ,トレーニングステップのスケーリングにおいて,損失曲線に影響を与える要因について検討する。
特定の知識グラフの最適モデルサイズを予測するために、最適規模のLMがパラメータあたり0.008ビット情報に対してほぼ推論可能であることを示す経験的スケーリング法則を求める。
この研究は、モデルサイズのスケーリングによる直感的効果を示し、LLMにおけるスケーリングと推論の関係に関する新たな洞察を提供する。
関連論文リスト
- Let Me Think! A Long Chain-of-Thought Can Be Worth Exponentially Many Short Ones [19.390296419822562]
逐次スケーリングが並列スケーリングよりも指数関数的な優位性をもたらすような推論設定の存在を示す。
我々は,様々な言語モデルを用いた包括的実験により理論的知見を検証した。
論文 参考訳(メタデータ) (2025-05-27T23:23:34Z) - G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning [58.73279333365234]
合成グラフ理論タスクにおける強化学習(RL)はグラフ推論能力を著しく拡張することができる。
RL on ErdosでG1はグラフ推論の大幅な改善を実現し、微調整された3BモデルはQwen2.5-72B-Instruct(24倍)よりも優れています。
我々の研究は、グラフ理論上のRLでLLMを微調整することで、強力なグラフ推論器を構築するための効率的でスケーラブルな経路を提供する。
論文 参考訳(メタデータ) (2025-05-24T04:33:41Z) - Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph-Augmented LLMs [4.701165676405066]
関連情報を検索するだけでなく、因果推論や説明可能性の提供も重要である。
本稿では,大きな知識グラフをフィルタして原因効果エッジを強調する新しいパイプラインを提案する。
医学的質問応答タスクの実験では、一貫した利得を示し、最大10%の絶対的な改善がある。
論文 参考訳(メタデータ) (2025-01-24T19:31:06Z) - What Do LLMs Need to Understand Graphs: A Survey of Parametric Representation of Graphs [69.48708136448694]
大規模言語モデル(LLM)は、期待される推論能力と推論能力のために、AIコミュニティで再編成されている。
我々は、グラフのこのようなパラメトリック表現、グラフ法則は、LLMがグラフデータを入力として理解させるソリューションであると信じている。
論文 参考訳(メタデータ) (2024-10-16T00:01:31Z) - Revisiting the Graph Reasoning Ability of Large Language Models: Case Studies in Translation, Connectivity and Shortest Path [53.71787069694794]
大規模言語モデル(LLM)のグラフ推論能力に着目する。
グラフ記述変換,グラフ接続,最短パス問題という3つの基本グラフタスクにおけるLLMの能力を再考する。
この結果から,LLMはテキスト記述によるグラフ構造理解に失敗し,これらの基本課題に対して様々な性能を示すことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-08-18T16:26:39Z) - Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z) - GraphLLM: Boosting Graph Reasoning Ability of Large Language Model [7.218768686958888]
GraphLLMは、グラフ学習モデルと大規模言語モデルを統合する、先駆的なエンドツーエンドアプローチである。
4つの基本グラフ推論タスクにおける経験的評価により,GraphLLMの有効性が検証された。
その結果、54.44%の精度が向上し、96.45%の文脈が短縮された。
論文 参考訳(メタデータ) (2023-10-09T16:42:00Z) - GraphReason: Enhancing Reasoning Capabilities of Large Language Models through A Graph-Based Verification Approach [0.0]
大きな言語モデル(LLM)は印象的な推論機能を示しています。
本稿では,LLMの推論能力をさらに向上するグラフベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T03:12:59Z) - Beyond spectral gap (extended): The role of the topology in
decentralized learning [58.48291921602417]
機械学習モデルのデータ並列最適化では、労働者はモデルの推定値を改善するために協力する。
現在の理論では、コラボレーションはトレーニング単独よりも学習率が大きいことを説明していない。
本稿では,疎結合分散最適化の正確な図面を描くことを目的とする。
論文 参考訳(メタデータ) (2023-01-05T16:53:38Z) - CLEAR: Generative Counterfactual Explanations on Graphs [60.30009215290265]
グラフ上での対実的説明生成の問題について検討する。
グラフに関する反実的な説明を調査する研究はいくつかあるが、この問題の多くの課題はまだ十分に適応されていない。
本稿では,グラフレベルの予測モデルに対して,グラフ上の反実的説明を生成するための新しいフレームワークCLEARを提案する。
論文 参考訳(メタデータ) (2022-10-16T04:35:32Z) - Beyond spectral gap: The role of the topology in decentralized learning [58.48291921602417]
機械学習モデルのデータ並列最適化では、労働者はモデルの推定値を改善するために協力する。
本稿では、労働者が同じデータ分散を共有するとき、疎結合な分散最適化の正確な図面を描くことを目的とする。
我々の理論は深層学習における経験的観察と一致し、異なるグラフトポロジーの相対的メリットを正確に記述する。
論文 参考訳(メタデータ) (2022-06-07T08:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。