論文の概要: Pretraining Language Models to Ponder in Continuous Space
- arxiv url: http://arxiv.org/abs/2505.20674v1
- Date: Tue, 27 May 2025 03:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.386354
- Title: Pretraining Language Models to Ponder in Continuous Space
- Title(参考訳): 連続空間におけるポンダへの言語モデルの事前学習
- Authors: Boyi Zeng, Shixiang Song, Siyuan Huang, Yixuan Wang, He Li, Ziwei He, Xinbing Wang, Zhiyu Li, Zhouhan Lin,
- Abstract要約: 単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
- 参考スコア(独自算出の注目度): 50.52734567589996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans ponder before articulating complex sentence elements, enabling deeper cognitive processing through focused effort. In this work, we introduce this pondering process into language models by repeatedly invoking the forward process within a single token generation step. During pondering, instead of generating an actual token sampled from the prediction distribution, the model ponders by yielding a weighted sum of all token embeddings according to the predicted token distribution. The generated embedding is then fed back as input for another forward pass. We show that the model can learn to ponder in this way through self-supervised learning, without any human annotations. Our method is straightforward and can be seamlessly integrated with various existing language models. Experiments across three widely used open-source architectures-GPT-2, Pythia, and LLaMA-and extensive downstream task evaluations demonstrate the effectiveness and generality of our method. For language modeling tasks, pondering language models achieve performance comparable to vanilla models with twice the number of parameters. On 9 downstream benchmarks, our pondering-enhanced Pythia models significantly outperform the official Pythia models. Notably, pondering-enhanced Pythia-1B is comparable to TinyLlama-1.1B, which is trained on 10 times more data. The code is available at https://github.com/LUMIA-Group/PonderingLM.
- Abstract(参考訳): 人間は複雑な文要素を記述する前に熟考し、集中した努力を通じてより深い認知処理を可能にする。
本研究では,この思考過程を言語モデルに導入し,単一のトークン生成ステップ内でフォワードプロセスを繰り返し呼び出す。
予測分布からサンプリングされた実際のトークンを生成する代わりに、予測されたトークン分布に従って、すべてのトークン埋め込みの重み付け和を出力することで、モデルを熟考する。
生成された埋め込みは、別のフォワードパスの入力として返される。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
我々の手法は単純で、様々な既存言語モデルとシームレスに統合できる。
GPT-2,Pythia,LLaMAの3つのオープンソースアーキテクチャを対象とした実験により,提案手法の有効性と汎用性を実証した。
言語モデリングタスクでは、言語モデルを熟考すると、パラメータの2倍のバニラモデルに匹敵するパフォーマンスが得られる。
下流の9つのベンチマークでは、Pythiaモデルが公式のPythiaモデルよりも大幅に優れています。
特に、ピシア-1Bは10倍のデータで訓練されたTinyLlama-1.1Bと同等である。
コードはhttps://github.com/LUMIA-Group/PonderingLMで公開されている。
関連論文リスト
- Can bidirectional encoder become the ultimate winner for downstream applications of foundation models? [1.8120356834558644]
基礎モデルには、事前学習、移動学習、自己指導学習の特徴がある。
BERTは、マスク付き言語モデルを用いて事前学習において、一方通行の言語モデリングのみを使用するという制限を突破した。
本稿では,GPT と BERT に基づく一方向モデルと双方向モデルを分析し,その目的に基づいて差分を比較する。
論文 参考訳(メタデータ) (2024-11-27T03:31:14Z) - Better & Faster Large Language Models via Multi-token Prediction [29.067271500844928]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。
複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文 参考訳(メタデータ) (2024-04-30T17:33:57Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。