論文の概要: Test-Time Training on Nearest Neighbors for Large Language Models
- arxiv url: http://arxiv.org/abs/2305.18466v2
- Date: Wed, 7 Jun 2023 06:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 18:17:18.468632
- Title: Test-Time Training on Nearest Neighbors for Large Language Models
- Title(参考訳): 大規模言語モデルにおける近隣住民のテスト時間訓練
- Authors: Moritz Hardt and Yu Sun
- Abstract要約: Pileデータセットのテキスト埋め込みに基づく大規模分散近接インデックスを構築した。
言語モデルに対するクエリが与えられた場合、システムはクエリの隣人を検索し、それらの隣人に対応するテキストデータに基づいてモデルを微調整する。
- 参考スコア(独自算出の注目度): 30.855284758352102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent efforts aim to augment language models with relevant information
retrieved from a database at test time. We avoid the need for prompt
engineering by directly fine-tuning the model on data retrieved at test time
using its standard training setup. For this purpose, we build a large-scale
distributed nearest neighbor index based on text embeddings of the Pile
dataset. Given a query to a language model, our system retrieves the neighbors
of the query and fine-tunes the model on the text data corresponding to those
neighbors. Surprisingly, retrieving and training on as few as 20 neighbors,
each for only one gradient iteration, drastically improves performance across
more than twenty language modeling tasks in the Pile benchmark. For example,
test-time training significantly narrows the performance gap between a small
GPT2 model and a GPTNeo model, more than ten times larger, that was
specifically trained to convergence on the Pile. Sufficient index quality and
size, however, are important. Our work establishes a valuable first baseline
for implementing test-time training in the context of large language models,
opening the door to numerous promising research avenues.
- Abstract(参考訳): 最近の多くの取り組みは、テスト時にデータベースから取得した関連情報を言語モデルに拡張することを目的としている。
テスト時に取得したデータに対して,標準のトレーニング設定を使ってモデルを微調整することで,迅速なエンジニアリングの必要性を回避する。
そこで本研究では,Pileデータセットのテキスト埋め込みに基づく大規模分散近接インデックスを構築した。
言語モデルへのクエリが与えられたら、システムはクエリの近傍を検索し、その近隣に対応するテキストデータ上でモデルを微調整します。
驚いたことに、わずか20人の隣人による検索とトレーニングが、それぞれ1回の勾配イテレーションで、pillベンチマークで20以上の言語モデリングタスクのパフォーマンスを劇的に改善している。
例えば、テストタイムトレーニングでは、小さなGPT2モデルと10倍以上のGPTNeoモデルのパフォーマンスギャップが大幅に狭まり、特にPileに収束するように訓練されている。
しかし、十分なインデックスの品質とサイズは重要だ。
私たちの研究は、大規模な言語モデルのコンテキストでテスト時トレーニングを実装する上で、価値ある最初のベースラインを確立します。
関連論文リスト
- Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。