Fugu-MT 論文翻訳(概要): Test-Time Training on Nearest Neighbors for Large Language Models

論文の概要: Test-Time Training on Nearest Neighbors for Large Language Models

arxiv url: http://arxiv.org/abs/2305.18466v3
Date: Fri, 2 Feb 2024 20:28:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 06:31:43.954835
Title: Test-Time Training on Nearest Neighbors for Large Language Models
Title（参考訳）: 大規模言語モデルにおける近隣住民のテスト時間訓練
Authors: Moritz Hardt and Yu Sun
Abstract要約: Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。驚くべきことに、20以上の言語モデリングタスクにおいて、20人程度の隣人の検索とトレーニングが大幅にパフォーマンスを向上します。
参考スコア（独自算出の注目度）: 25.365366617508663
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many recent efforts augment language models with retrieval, by adding retrieved data to the input context. For this approach to succeed, the retrieved data must be added at both training and test time. Moreover, as input length grows linearly with the size of retrieved data, cost in computation and memory grows quadratically for modern Transformers. To avoid these complications, we simply fine-tune the model on retrieved data at test time, using its standard training setup. We build a large-scale distributed index based on text embeddings of the Pile dataset. For each test input, our system retrieves its neighbors and fine-tunes the model on their text. Surprisingly, retrieving and training on as few as 20 neighbors, each for only one gradient iteration, drastically improves performance across more than 20 language modeling tasks in the Pile. For example, test-time training with nearest neighbors significantly narrows the performance gap between a small GPT-2 and a GPT-Neo model more than 10 times larger. Sufficient index quality and size, however, are necessary. Our work establishes a first baseline of test-time training for language modeling.
Abstract（参考訳）: 最近の多くの取り組みは、検索されたデータを入力コンテキストに追加することで、検索による言語モデルを強化している。このアプローチが成功するためには、取得したデータをトレーニングとテストの両方で追加する必要がある。さらに、入力長が検索データのサイズに比例して大きくなると、計算コストとメモリコストはモダントランスフォーマーの二次的に増加する。これらの問題を回避するため、我々は、標準的なトレーニング設定を用いて、検索したデータのモデルをテスト時に微調整する。 Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。驚いたことに、わずか20人の隣人による検索とトレーニングは、それぞれ1回の勾配イテレーションで、20以上の言語モデリングタスクでパフォーマンスが大幅に向上する。例えば、隣人のテストタイムトレーニングでは、小さなGPT-2と10倍以上のGPT-Neoモデルのパフォーマンスギャップが大幅に狭まる。しかし、十分なインデックスの品質とサイズは必要である。私たちの研究は、言語モデリングのためのテストタイムトレーニングの最初のベースラインを確立します。

関連論文リスト

Reproducibility Report: Test-Time Training on Nearest Neighbors for Large Language Models [1.4079939639608414]
大規模言語モデルにおけるテストタイムトレーニングの中心的主張を再現する(Hardt and Sun, 2024) GPT-2 (117M, 774M), GPT-Neo (1.3B), R1-Distilled-Qwen2.5-1.5B。実験の結果,テストタイムのトレーニングによって,The Pileのさまざまなドメインにまたがる複雑度やビット単位のメトリクスが大幅に減少することが確認された。
論文参考訳（メタデータ） (2025-11-16T09:25:18Z)
Improved Alignment of Modalities in Large Vision Language Models [1.4561960744147884]
本稿では,自動回帰視覚言語モデルの学習戦略を提案する。視覚モデルを言語モデルと整合させるための4つの訓練段階を提案する。また、トランスフォーマーベースの言語モデルをトレーニングするための異なる注意マスクも考案した。
論文参考訳（メタデータ） (2025-03-25T09:59:46Z)
TinyHelen's First Curriculum: Training and Evaluating Tiny Language Models in a Simpler Language Environment [30.93798042712827]
トレーニング言語モデル(LM)とそのアプリケーションエージェントは、大規模なデータセットとモデルのために、ますますコストがかかる。ノイズを排除し、語彙を最小化し、ジャンル固有のパターンを維持することで、テキストデータを洗練するためのパイプラインを提案する。実験により,ランダー事前学習がLM学習効率を向上させることが示された。
論文参考訳（メタデータ） (2024-12-31T16:08:15Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文参考訳（メタデータ） (2024-02-16T03:39:37Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Pre-training Data Quality and Quantity for a Low-Resource Language: New Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文参考訳（メタデータ） (2022-05-21T06:44:59Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文参考訳（メタデータ） (2021-04-30T16:55:28Z)
From Universal Language Model to Downstream Task: Improving RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文参考訳（メタデータ） (2021-02-24T09:30:55Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。