論文の概要: Reasoning to Learn from Latent Thoughts
- arxiv url: http://arxiv.org/abs/2503.18866v1
- Date: Mon, 24 Mar 2025 16:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:52.395999
- Title: Reasoning to Learn from Latent Thoughts
- Title(参考訳): 潜在思想から学ぶための理由
- Authors: Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto,
- Abstract要約: そこで本研究では,テキスト生成プロセスの根底にある潜在的思考を明示的にモデル化し,推論することにより,事前学習データの効率を大幅に向上できることを示す。
1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを大幅に上回ることを示す。
推論スケーリングとEMイテレーションのメリットは、データ制約付き事前トレーニングをスケールする新たな機会を示唆している。
- 参考スコア(独自算出の注目度): 45.59740535714148
- License:
- Abstract: Compute scaling for language model (LM) pretraining has outpaced the growth of human-written texts, leading to concerns that data will become the bottleneck to LM scaling. To continue scaling pretraining in this data-constrained regime, we propose that explicitly modeling and inferring the latent thoughts that underlie the text generation process can significantly improve pretraining data efficiency. Intuitively, our approach views web text as the compressed final outcome of a verbose human thought process and that the latent thoughts contain important contextual knowledge and reasoning steps that are critical to data-efficient learning. We empirically demonstrate the effectiveness of our approach through data-constrained continued pretraining for math. We first show that synthetic data approaches to inferring latent thoughts significantly improve data efficiency, outperforming training on the same amount of raw data (5.7\% $\rightarrow$ 25.4\% on MATH). Furthermore, we demonstrate latent thought inference without a strong teacher, where an LM bootstraps its own performance by using an EM algorithm to iteratively improve the capability of the trained LM and the quality of thought-augmented pretraining data. We show that a 1B LM can bootstrap its performance across at least three iterations and significantly outperform baselines trained on raw data, with increasing gains from additional inference compute when performing the E-step. The gains from inference scaling and EM iterations suggest new opportunities for scaling data-constrained pretraining.
- Abstract(参考訳): 言語モデル(LM)事前トレーニングの計算スケーリングは、人文テキストの成長を上回り、データがLMスケーリングのボトルネックとなるという懸念につながっている。
このデータ制約型システムにおける事前学習のスケーリングを継続するため,テキスト生成プロセスの根底にある潜在的思考を明示的にモデル化し,推論することにより,事前学習の効率を大幅に向上させる方法を提案する。
直感的には、我々のアプローチはウェブテキストを、冗長な人間の思考過程の圧縮された最終結果であり、潜在思考には、データ効率の学習に不可欠な重要な文脈的知識と推論ステップが含まれていると考えている。
本研究では,データ制約付き連続事前学習による数学学習によるアプローチの有効性を実証的に実証した。
まず、潜在思考を推定するための合成データアプローチが、同じ量の生データ(MATHでは5.7\%$\rightarrow$ 25.4\%)でトレーニングを上回り、データ効率を著しく向上させることを示した。
さらに、強力な教師を伴わない潜在的思考推論を示し、EMアルゴリズムを用いて、訓練されたLMの能力と思考強化事前学習データの品質を反復的に改善することで、LMが自身のパフォーマンスをブートストラップする。
1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを著しく上回り、Eステップの実行時に追加の推論計算によるゲインを増大させることができることを示す。
推論スケーリングとEMイテレーションのメリットは、データ制約付き事前トレーニングをスケールする新たな機会を示唆している。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - HARE: HumAn pRiors, a key to small language model Efficiency [6.253561984966316]
人間の先駆者は、ディープラーニングでデータを効率的に活用する上で重要な役割を担います。
既存のSmall Language Modelは、主にWebスクラッドな大規模トレーニングデータに依存している。
我々は、データ構築に人類の優先事項を活用する原則を提案する。
論文 参考訳(メタデータ) (2024-06-17T10:56:03Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training [20.98770732015944]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Harnessing the Power of Explanations for Incremental Training: A
LIME-Based Approach [6.244905619201076]
この研究では、モデル説明がフィードフォワードトレーニングにフィードバックされ、モデルをより一般化するのに役立つ。
このフレームワークは、シーケンシャルなテストセットのパフォーマンスを維持するために、Elastic Weight Consolidation (EWC)によるカスタム重み付き損失を取り入れている。
提案したカスタムトレーニング手順は、インクリメンタルラーニングセットアップのすべてのフェーズにおいて、0.5%から1.5%までの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2022-11-02T18:16:17Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。