論文の概要: On Retrieval Augmentation and the Limitations of Language Model Training
- arxiv url: http://arxiv.org/abs/2311.09615v2
- Date: Tue, 2 Apr 2024 06:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:23:14.905948
- Title: On Retrieval Augmentation and the Limitations of Language Model Training
- Title(参考訳): 検索の強化と言語モデル学習の限界について
- Authors: Ting-Rui Chiang, Xinyan Velocity Yu, Joshua Robinson, Ollie Liu, Isabelle Lee, Dani Yogatama,
- Abstract要約: トレーニングデータだけで、$k$-nearestの隣人($k$NN)検索による言語モデルの強化は、その難易度を低下させる可能性がある。
トレーニングデータに因果関係のない追加情報が含まれている設定において、LM能力を評価するための新しいデータセットを作成する。
k$NN検索をより使いやすくするために,従来の検索に代えてデータストアキーを値にマップする多層パーセプトロンモデルを提案する。
- 参考スコア(独自算出の注目度): 22.850656435870416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmenting a language model (LM) with $k$-nearest neighbors ($k$NN) retrieval on its training data alone can decrease its perplexity, though the underlying reasons for this remain elusive. In this work, we rule out one previously posited possibility -- the "softmax bottleneck." We then create a new dataset to evaluate LM generalization ability in the setting where training data contains additional information that is not causally relevant. This task is challenging even for GPT-3.5 Turbo. We show that, for both GPT-2 and Mistral 7B, $k$NN retrieval augmentation consistently improves performance in this setting. Finally, to make $k$NN retrieval more accessible, we propose using a multi-layer perceptron model that maps datastore keys to values as a drop-in replacement for traditional retrieval. This reduces storage costs by over 25x.
- Abstract(参考訳): トレーニングデータだけで、言語モデル(LM)を$k$-nearestの隣人($k$NN)検索で拡張することは、その難易度を低下させる可能性があるが、その根本的な理由はまだ解明されていない。
本研究では、これまで提案されていた「ソフトマックスボトルネック」の可能性を除外する。
次に、トレーニングデータに因果関係のない追加情報が含まれている設定において、LM一般化能力を評価するための新しいデータセットを作成する。
この作業はGPT-3.5ターボでも困難である。
GPT-2 と Mistral 7B に対して,$k$NN の検索拡張は,この設定の性能を継続的に向上させることを示す。
最後に、$k$NN検索をより使いやすくするために、従来の検索のドロップイン代替としてデータストアキーを値にマップする多層パーセプトロンモデルを提案する。
これにより、ストレージコストが25倍以上削減される。
関連論文リスト
- Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data [8.216001662843384]
長文処理のための微調整モデルは、情報検索と推論能力を改善する。
提案手法は,合成から実タスク評価へのスキルの移転を図った微調整モデルの解析である。
本研究は,LLMの性能向上のための合成データへの微調整の可能性を明らかにする。
論文 参考訳(メタデータ) (2024-06-27T16:05:13Z) - Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval [49.825549809652436]
$k$NN-MTはドメイン固有の翻訳知識を保持するために外部データストアを構築する。
適応検索(k$NN-MT-AR)は、$lambda$を動的に推定し、$lambda$が固定しきい値以下であれば$k$NN検索をスキップする。
本稿では,バニラ$k$NN-MTを大幅に拡張した動的検索(k$NN-MT-DR)を提案する。
論文 参考訳(メタデータ) (2024-06-10T07:36:55Z) - Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文 参考訳(メタデータ) (2024-03-13T17:58:57Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - $k$NN-Adapter: Efficient Domain Adaptation for Black-Box Language Models [18.969047541720123]
$k$NN-Adapterは、大きな言語モデルを新しいドメインに適応させる方法である。
4つの異なるドメインの実験では、$k$NN-Adapterがパープレキシティを大幅に改善している。
論文 参考訳(メタデータ) (2023-02-21T18:54:21Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。
その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T23:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。