論文の概要: Test-Time Training on Nearest Neighbors for Large Language Models
- arxiv url: http://arxiv.org/abs/2305.18466v3
- Date: Fri, 2 Feb 2024 20:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 06:31:43.954835
- Title: Test-Time Training on Nearest Neighbors for Large Language Models
- Title(参考訳): 大規模言語モデルにおける近隣住民のテスト時間訓練
- Authors: Moritz Hardt and Yu Sun
- Abstract要約: Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。
テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。
驚くべきことに、20以上の言語モデリングタスクにおいて、20人程度の隣人の検索とトレーニングが大幅にパフォーマンスを向上します。
- 参考スコア(独自算出の注目度): 25.365366617508663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent efforts augment language models with retrieval, by adding
retrieved data to the input context. For this approach to succeed, the
retrieved data must be added at both training and test time. Moreover, as input
length grows linearly with the size of retrieved data, cost in computation and
memory grows quadratically for modern Transformers. To avoid these
complications, we simply fine-tune the model on retrieved data at test time,
using its standard training setup. We build a large-scale distributed index
based on text embeddings of the Pile dataset. For each test input, our system
retrieves its neighbors and fine-tunes the model on their text. Surprisingly,
retrieving and training on as few as 20 neighbors, each for only one gradient
iteration, drastically improves performance across more than 20 language
modeling tasks in the Pile. For example, test-time training with nearest
neighbors significantly narrows the performance gap between a small GPT-2 and a
GPT-Neo model more than 10 times larger. Sufficient index quality and size,
however, are necessary. Our work establishes a first baseline of test-time
training for language modeling.
- Abstract(参考訳): 最近の多くの取り組みは、検索されたデータを入力コンテキストに追加することで、検索による言語モデルを強化している。
このアプローチが成功するためには、取得したデータをトレーニングとテストの両方で追加する必要がある。
さらに、入力長が検索データのサイズに比例して大きくなると、計算コストとメモリコストはモダントランスフォーマーの二次的に増加する。
これらの問題を回避するため、我々は、標準的なトレーニング設定を用いて、検索したデータのモデルをテスト時に微調整する。
Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。
テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。
驚いたことに、わずか20人の隣人による検索とトレーニングは、それぞれ1回の勾配イテレーションで、20以上の言語モデリングタスクでパフォーマンスが大幅に向上する。
例えば、隣人のテストタイムトレーニングでは、小さなGPT-2と10倍以上のGPT-Neoモデルのパフォーマンスギャップが大幅に狭まる。
しかし、十分なインデックスの品質とサイズは必要である。
私たちの研究は、言語モデリングのためのテストタイムトレーニングの最初のベースラインを確立します。
関連論文リスト
- Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。