論文の概要: Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence
- arxiv url: http://arxiv.org/abs/2511.07384v1
- Date: Mon, 10 Nov 2025 18:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.417765
- Title: Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence
- Title(参考訳): 事前学習型言語モデルによる再帰的再帰の深い思考指導
- Authors: Sean McLeish, Ang Li, John Kirchenbauer, Dayal Singh Kalra, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Jonas Geiping, Tom Goldstein, Micah Goldblum,
- Abstract要約: 既存の事前学習された非再帰言語モデルを深度再帰モデルに変換する方法について検討する。
学習過程におけるモデルの有効深度を高めるために繰り返しのカリキュラムを用いることで,全体の計算コストを削減しつつ,性能を維持できることが判明した。
- 参考スコア(独自算出の注目度): 113.48450265178953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in depth-recurrent language models show that recurrence can decouple train-time compute and parameter count from test-time compute. In this work, we study how to convert existing pretrained non-recurrent language models into depth-recurrent models. We find that using a curriculum of recurrences to increase the effective depth of the model over the course of training preserves performance while reducing total computational cost. In our experiments, on mathematics, we observe that converting pretrained models to recurrent ones results in better performance at a given compute budget than simply post-training the original non-recurrent language model.
- Abstract(参考訳): 近年のディープ・リカレント言語モデルの進歩は、繰り返しはテスト時間計算から列車時間計算とパラメータカウントを分離できることを示している。
本研究では,既存の事前学習型非反復言語モデルから深度再帰型モデルへの変換手法について検討する。
学習過程におけるモデルの有効深度を高めるために繰り返しのカリキュラムを用いることで,全体の計算コストを削減しつつ,性能を維持できることが判明した。
実験では,事前学習したモデルを再帰モデルに変換することで,従来の非反復言語モデルよりも,与えられた計算予算での性能が向上することが確認された。
関連論文リスト
- Loop Neural Networks for Parameter Sharing [1.1049608786515839]
本稿では,モデルサイズを増大させることなく,より長い計算時間を活用することにより,より優れた性能を実現するループニューラルネットワークを提案する。
提案手法では,残差接続を持つモデルのサブセットを反復的にループすることで,入力を複数回再検討する。
本手法の有効性を,GPT-2とループモデルの比較実験により実証し,類似したパラメータ数を維持しつつ,言語モデリングタスクの性能向上を示す。
論文 参考訳(メタデータ) (2024-09-21T17:07:42Z) - Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。
プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文 参考訳(メタデータ) (2024-07-09T22:37:59Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Logarithmic Continual Learning [11.367079056418957]
本稿では、連続学習モデルの生成的リハーサルにおける自己リハーサルステップの数を対数的に減少させるニューラルネットワークアーキテクチャを提案する。
継続学習(CL)では、トレーニングサンプルがその後のタスクに反映され、トレーニングされたモデルが一度に1つのタスクにしかアクセスできない。
論文 参考訳(メタデータ) (2022-01-17T17:29:16Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - PrIU: A Provenance-Based Approach for Incrementally Updating Regression
Models [9.496524884855559]
本稿では,予測精度を犠牲にすることなく,モデルパラメータを漸進的に更新する手法PrIUを提案する。
漸進的に更新されたモデルパラメータの正しさと収束性を証明し、実験的に検証する。
実験結果から, PrIU-optはスクラッチからモデルを再トレーニングするのに対して, 非常に類似したモデルを得るよりも, 最大2桁のスピードアップを達成できることがわかった。
論文 参考訳(メタデータ) (2020-02-26T21:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。