Fugu-MT 論文翻訳(概要): Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning

論文の概要: Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning

arxiv url: http://arxiv.org/abs/2504.03635v1
Date: Fri, 04 Apr 2025 17:57:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-14 15:43:03.035733
Title: Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning
Title（参考訳）: より大きな言語モデルは推論を改善するか? 推論のためのスケーリング法を事前訓練する
Authors: Xinyi Wang, Shawn Tan, Mingyu Jin, William Yang Wang, Rameswar Panda, Yikang Shen,
Abstract要約: 本研究では,実世界の大規模知識グラフの構造と分布を再現する合成マルチホップ推論環境を提案する。我々の推論タスクは、グラフの欠落したエッジを補完することであり、これは高度なマルチホップ推論を必要とし、現実世界の推論シナリオを模倣する。特定の知識グラフに対して最適なモデルサイズを予測するために,知識グラフ探索エントロピーを最適モデルサイズに線形にマッピングする経験的スケーリングを求める。
参考スコア（独自算出の注目度）: 89.17086632436363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks requiring complex reasoning. However, the effects of scaling on their reasoning abilities remain insufficiently understood. In this paper, we introduce a synthetic multihop reasoning environment designed to closely replicate the structure and distribution of real-world large-scale knowledge graphs. Our reasoning task involves completing missing edges in the graph, which requires advanced multi-hop reasoning and mimics real-world reasoning scenarios. To evaluate this, we pretrain language models (LMs) from scratch solely on triples from the incomplete graph and assess their ability to infer the missing edges. Interestingly, we observe that overparameterization can impair reasoning performance due to excessive memorization. We investigate different factors that affect this U-shaped loss curve, including graph structure, model size, and training steps. To predict the optimal model size for a specific knowledge graph, we find an empirical scaling that linearly maps the knowledge graph search entropy to the optimal model size. This work provides new insights into the relationship between scaling and reasoning in LLMs, shedding light on possible ways to optimize their performance for reasoning tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、複雑な推論を必要とする広範囲のタスクで顕著な機能を示している。しかし,スケーリングが推論能力に与える影響はいまだ十分に理解されていない。本稿では,実世界の大規模知識グラフの構造と分布を忠実に再現する合成マルチホップ推論環境を提案する。我々の推論タスクは、グラフの欠落したエッジを補完することであり、これは高度なマルチホップ推論を必要とし、現実世界の推論シナリオを模倣する。これを評価するために、不完全なグラフから三重項のみをスクラッチから事前訓練し、欠落したエッジを推測する能力を評価する。興味深いことに、過度な記憶が原因で、過度なパラメータ化が推論性能を損なう可能性がある。グラフ構造やモデルサイズ,トレーニングステップなど,このU字型損失曲線に影響を与えるさまざまな要因について検討する。特定の知識グラフに対して最適なモデルサイズを予測するために,知識グラフ探索エントロピーを最適モデルサイズに線形にマッピングする経験的スケーリングを求める。この研究は、LLMにおけるスケーリングと推論の関係に関する新たな洞察を提供し、推論タスクのパフォーマンスを最適化する可能性について光を当てています。

関連論文リスト

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks [17.067788440109137]
現在、Mixture-of-Experts (MoE)モデルは最先端システムでは標準となっている。記憶能力と推論能力の2つの異なる能力体制にMoEがどのような影響を及ぼすかを検討する。
論文参考訳（メタデータ） (2025-08-26T04:31:28Z)
Let Me Think! A Long Chain-of-Thought Can Be Worth Exponentially Many Short Ones [19.390296419822562]
逐次スケーリングが並列スケーリングよりも指数関数的な優位性をもたらすような推論設定の存在を示す。我々は,様々な言語モデルを用いた包括的実験により理論的知見を検証した。
論文参考訳（メタデータ） (2025-05-27T23:23:34Z)
G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning [58.73279333365234]
合成グラフ理論タスクにおける強化学習(RL)はグラフ推論能力を著しく拡張することができる。 RL on ErdosでG1はグラフ推論の大幅な改善を実現し、微調整された3BモデルはQwen2.5-72B-Instruct(24倍)よりも優れています。我々の研究は、グラフ理論上のRLでLLMを微調整することで、強力なグラフ推論器を構築するための効率的でスケーラブルな経路を提供する。
論文参考訳（メタデータ） (2025-05-24T04:33:41Z)
Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文参考訳（メタデータ） (2025-04-21T16:26:56Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph-Augmented LLMs [4.701165676405066]
関連情報を検索するだけでなく、因果推論や説明可能性の提供も重要である。本稿では,大きな知識グラフをフィルタして原因効果エッジを強調する新しいパイプラインを提案する。医学的質問応答タスクの実験では、一貫した利得を示し、最大10%の絶対的な改善がある。
論文参考訳（メタデータ） (2025-01-24T19:31:06Z)
What Do LLMs Need to Understand Graphs: A Survey of Parametric Representation of Graphs [69.48708136448694]
大規模言語モデル(LLM)は、期待される推論能力と推論能力のために、AIコミュニティで再編成されている。我々は、グラフのこのようなパラメトリック表現、グラフ法則は、LLMがグラフデータを入力として理解させるソリューションであると信じている。
論文参考訳（メタデータ） (2024-10-16T00:01:31Z)
Revisiting the Graph Reasoning Ability of Large Language Models: Case Studies in Translation, Connectivity and Shortest Path [53.71787069694794]
大規模言語モデル(LLM)のグラフ推論能力に着目する。グラフ記述変換,グラフ接続,最短パス問題という3つの基本グラフタスクにおけるLLMの能力を再考する。この結果から,LLMはテキスト記述によるグラフ構造理解に失敗し,これらの基本課題に対して様々な性能を示すことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-08-18T16:26:39Z)
Temporal Scaling Law for Large Language Models [70.74571133406958]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文参考訳（メタデータ） (2024-04-27T05:49:11Z)
Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文参考訳（メタデータ） (2024-02-05T18:25:51Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
GraphLLM: Boosting Graph Reasoning Ability of Large Language Model [7.218768686958888]
GraphLLMは、グラフ学習モデルと大規模言語モデルを統合する、先駆的なエンドツーエンドアプローチである。 4つの基本グラフ推論タスクにおける経験的評価により,GraphLLMの有効性が検証された。その結果、54.44%の精度が向上し、96.45%の文脈が短縮された。
論文参考訳（メタデータ） (2023-10-09T16:42:00Z)
The Cost of Down-Scaling Language Models: Fact Recall Deteriorates before In-Context Learning [34.76303922401322]
重み付けと、より小型または大型のモデルのトレーニングという、2つの自然なスケーリング手法について検討する。スケーリングによってこの2つの能力がどのように進化するかには、大きな違いがあります。密度の高いスケーリングとウェイトプルーニングの両方が、この振る舞いを示しているという事実は、スケーリングモデルのサイズが、事実のリコールと文脈内学習に本質的に異なる影響を持っていることを示唆している。
論文参考訳（メタデータ） (2023-10-07T03:36:39Z)
GraphReason: Enhancing Reasoning Capabilities of Large Language Models through A Graph-Based Verification Approach [0.0]
大きな言語モデル(LLM)は印象的な推論機能を示しています。本稿では,LLMの推論能力をさらに向上するグラフベースの新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-18T03:12:59Z)
Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文参考訳（メタデータ） (2023-06-15T20:11:23Z)
Honey, I Shrunk the Language: Language Model Behavior at Reduced Scale [5.759319006531332]
マスク付き言語モデリング(MLM)を用いた事前学習の利点を1.25Mパラメータのモデルで示す。スケール法則を100Mパラメータのモデルに拡張し,ダウンスケーリング効果について検討する。
論文参考訳（メタデータ） (2023-05-26T21:22:10Z)
Beyond spectral gap (extended): The role of the topology in decentralized learning [58.48291921602417]
機械学習モデルのデータ並列最適化では、労働者はモデルの推定値を改善するために協力する。現在の理論では、コラボレーションはトレーニング単独よりも学習率が大きいことを説明していない。本稿では,疎結合分散最適化の正確な図面を描くことを目的とする。
論文参考訳（メタデータ） (2023-01-05T16:53:38Z)
CLEAR: Generative Counterfactual Explanations on Graphs [60.30009215290265]
グラフ上での対実的説明生成の問題について検討する。グラフに関する反実的な説明を調査する研究はいくつかあるが、この問題の多くの課題はまだ十分に適応されていない。本稿では,グラフレベルの予測モデルに対して,グラフ上の反実的説明を生成するための新しいフレームワークCLEARを提案する。
論文参考訳（メタデータ） (2022-10-16T04:35:32Z)
Beyond spectral gap: The role of the topology in decentralized learning [58.48291921602417]
機械学習モデルのデータ並列最適化では、労働者はモデルの推定値を改善するために協力する。本稿では、労働者が同じデータ分散を共有するとき、疎結合な分散最適化の正確な図面を描くことを目的とする。我々の理論は深層学習における経験的観察と一致し、異なるグラフトポロジーの相対的メリットを正確に記述する。
論文参考訳（メタデータ） (2022-06-07T08:19:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。