論文の概要: Test-Time Training on Nearest Neighbors for Large Language Models
- arxiv url: http://arxiv.org/abs/2305.18466v3
- Date: Fri, 2 Feb 2024 20:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 06:31:43.954835
- Title: Test-Time Training on Nearest Neighbors for Large Language Models
- Title(参考訳): 大規模言語モデルにおける近隣住民のテスト時間訓練
- Authors: Moritz Hardt and Yu Sun
- Abstract要約: Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。
テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。
驚くべきことに、20以上の言語モデリングタスクにおいて、20人程度の隣人の検索とトレーニングが大幅にパフォーマンスを向上します。
- 参考スコア(独自算出の注目度): 25.365366617508663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent efforts augment language models with retrieval, by adding
retrieved data to the input context. For this approach to succeed, the
retrieved data must be added at both training and test time. Moreover, as input
length grows linearly with the size of retrieved data, cost in computation and
memory grows quadratically for modern Transformers. To avoid these
complications, we simply fine-tune the model on retrieved data at test time,
using its standard training setup. We build a large-scale distributed index
based on text embeddings of the Pile dataset. For each test input, our system
retrieves its neighbors and fine-tunes the model on their text. Surprisingly,
retrieving and training on as few as 20 neighbors, each for only one gradient
iteration, drastically improves performance across more than 20 language
modeling tasks in the Pile. For example, test-time training with nearest
neighbors significantly narrows the performance gap between a small GPT-2 and a
GPT-Neo model more than 10 times larger. Sufficient index quality and size,
however, are necessary. Our work establishes a first baseline of test-time
training for language modeling.
- Abstract(参考訳): 最近の多くの取り組みは、検索されたデータを入力コンテキストに追加することで、検索による言語モデルを強化している。
このアプローチが成功するためには、取得したデータをトレーニングとテストの両方で追加する必要がある。
さらに、入力長が検索データのサイズに比例して大きくなると、計算コストとメモリコストはモダントランスフォーマーの二次的に増加する。
これらの問題を回避するため、我々は、標準的なトレーニング設定を用いて、検索したデータのモデルをテスト時に微調整する。
Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。
テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。
驚いたことに、わずか20人の隣人による検索とトレーニングは、それぞれ1回の勾配イテレーションで、20以上の言語モデリングタスクでパフォーマンスが大幅に向上する。
例えば、隣人のテストタイムトレーニングでは、小さなGPT-2と10倍以上のGPT-Neoモデルのパフォーマンスギャップが大幅に狭まる。
しかし、十分なインデックスの品質とサイズは必要である。
私たちの研究は、言語モデリングのためのテストタイムトレーニングの最初のベースラインを確立します。
関連論文リスト
- TinyHelen's First Curriculum: Training and Evaluating Tiny Language Models in a Simpler Language Environment [30.93798042712827]
トレーニング言語モデル(LM)とそのアプリケーションエージェントは、大規模なデータセットとモデルのために、ますますコストがかかる。
ノイズを排除し、語彙を最小化し、ジャンル固有のパターンを維持することで、テキストデータを洗練するためのパイプラインを提案する。
実験により,ランダー事前学習がLM学習効率を向上させることが示された。
論文 参考訳(メタデータ) (2024-12-31T16:08:15Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。