論文の概要: On Retrieval Augmentation and the Limitations of Language Model Training
- arxiv url: http://arxiv.org/abs/2311.09615v1
- Date: Thu, 16 Nov 2023 06:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:15:29.687438
- Title: On Retrieval Augmentation and the Limitations of Language Model Training
- Title(参考訳): 検索の強化と言語モデル学習の限界について
- Authors: Ting-Rui Chiang, Xinyan Velocity Yu, Joshua Robinson, Ollie Liu,
Isabelle Lee, Dani Yogatama
- Abstract要約: トレーニングデータだけでkNN($k$-nearest neighbors)検索による言語モデルの拡張は、その難易度を低下させる可能性がある。
この作業では、最初に、以前に提案された可能性である"ソフトマックス・ボトルネック"を除外します。
- 参考スコア(独自算出の注目度): 24.212917087000317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmenting a language model (LM) with $k$-nearest neighbors (kNN) retrieval
on its training data alone can decrease its perplexity, though the underlying
reasons for this remains elusive. In this work, we first rule out one
previously posited possibility -- the "softmax bottleneck." We further identify
the MLP hurdle phenomenon, where the final MLP layer in LMs may impede LM
optimization early on. We explore memorization and generalization in language
models with two new datasets, where advanced model like GPT-3.5-turbo find
generalizing to irrelevant information in the training data challenging.
However, incorporating kNN retrieval to vanilla GPT-2 117M can consistently
improve performance in this setting.
- Abstract(参考訳): トレーニングデータだけで言語モデル(LM)を$k$-nearest neighbors(kNN)検索で拡張することは、その難易度を低下させるが、その根底にある理由はまだ解明されていない。
この作業では、最初に、以前に提案された可能性である"ソフトマックスボトルネック"を除外します。
さらに,LMの最終MLP層がLM最適化を早期に阻害する,MDPハードル現象を同定する。
gpt-3.5-turboのような先進的なモデルでは、トレーニングデータの無関係な情報に一般化している。
しかし、バニラGPT-2117MにkNN検索を組み込むことで、この設定の性能を継続的に改善することができる。
関連論文リスト
- Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data [8.216001662843384]
長文処理のための微調整モデルは、情報検索と推論能力を改善する。
提案手法は,合成から実タスク評価へのスキルの移転を図った微調整モデルの解析である。
本研究は,LLMの性能向上のための合成データへの微調整の可能性を明らかにする。
論文 参考訳(メタデータ) (2024-06-27T16:05:13Z) - Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval [49.825549809652436]
$k$NN-MTはドメイン固有の翻訳知識を保持するために外部データストアを構築する。
適応検索(k$NN-MT-AR)は、$lambda$を動的に推定し、$lambda$が固定しきい値以下であれば$k$NN検索をスキップする。
本稿では,バニラ$k$NN-MTを大幅に拡張した動的検索(k$NN-MT-DR)を提案する。
論文 参考訳(メタデータ) (2024-06-10T07:36:55Z) - Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文 参考訳(メタデータ) (2024-03-13T17:58:57Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - $k$NN-Adapter: Efficient Domain Adaptation for Black-Box Language Models [18.969047541720123]
$k$NN-Adapterは、大きな言語モデルを新しいドメインに適応させる方法である。
4つの異なるドメインの実験では、$k$NN-Adapterがパープレキシティを大幅に改善している。
論文 参考訳(メタデータ) (2023-02-21T18:54:21Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。
その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T23:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。