論文の概要: On Retrieval Augmentation and the Limitations of Language Model Training
- arxiv url: http://arxiv.org/abs/2311.09615v2
- Date: Tue, 2 Apr 2024 06:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:23:14.905948
- Title: On Retrieval Augmentation and the Limitations of Language Model Training
- Title(参考訳): 検索の強化と言語モデル学習の限界について
- Authors: Ting-Rui Chiang, Xinyan Velocity Yu, Joshua Robinson, Ollie Liu, Isabelle Lee, Dani Yogatama,
- Abstract要約: トレーニングデータだけで、$k$-nearestの隣人($k$NN)検索による言語モデルの強化は、その難易度を低下させる可能性がある。
トレーニングデータに因果関係のない追加情報が含まれている設定において、LM能力を評価するための新しいデータセットを作成する。
k$NN検索をより使いやすくするために,従来の検索に代えてデータストアキーを値にマップする多層パーセプトロンモデルを提案する。
- 参考スコア(独自算出の注目度): 22.850656435870416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmenting a language model (LM) with $k$-nearest neighbors ($k$NN) retrieval on its training data alone can decrease its perplexity, though the underlying reasons for this remain elusive. In this work, we rule out one previously posited possibility -- the "softmax bottleneck." We then create a new dataset to evaluate LM generalization ability in the setting where training data contains additional information that is not causally relevant. This task is challenging even for GPT-3.5 Turbo. We show that, for both GPT-2 and Mistral 7B, $k$NN retrieval augmentation consistently improves performance in this setting. Finally, to make $k$NN retrieval more accessible, we propose using a multi-layer perceptron model that maps datastore keys to values as a drop-in replacement for traditional retrieval. This reduces storage costs by over 25x.
- Abstract(参考訳): トレーニングデータだけで、言語モデル(LM)を$k$-nearestの隣人($k$NN)検索で拡張することは、その難易度を低下させる可能性があるが、その根本的な理由はまだ解明されていない。
本研究では、これまで提案されていた「ソフトマックスボトルネック」の可能性を除外する。
次に、トレーニングデータに因果関係のない追加情報が含まれている設定において、LM一般化能力を評価するための新しいデータセットを作成する。
この作業はGPT-3.5ターボでも困難である。
GPT-2 と Mistral 7B に対して,$k$NN の検索拡張は,この設定の性能を継続的に向上させることを示す。
最後に、$k$NN検索をより使いやすくするために、従来の検索のドロップイン代替としてデータストアキーを値にマップする多層パーセプトロンモデルを提案する。
これにより、ストレージコストが25倍以上削減される。
関連論文リスト
- Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文 参考訳(メタデータ) (2024-03-13T17:58:57Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - Pretraining task diversity and the emergence of non-Bayesian in-context
learning for regression [31.950737940558984]
事前訓練されたトランスフォーマーは、文脈内学習(ICL)の顕著な能力を示す
ICLは、事前トレーニング中に見られるタスクとは大きく異なる、基本的に$textitnew$タスクを解決できますか?
論文 参考訳(メタデータ) (2023-06-26T21:05:20Z) - Inverse Scaling: When Bigger Isn't Better [64.993426536523]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Shall We Pretrain Autoregressive Language Models with Retrieval? A
Comprehensive Study [115.96080028033904]
本稿では,拡張性のある事前学習型検索拡張LM(RETRO)について,標準GPTと検索拡張GPTと比較した。
本研究は, 将来の基盤モデルとしての検索による自己回帰型LMの事前学習の方向性を明らかにするものである。
論文 参考訳(メタデータ) (2023-04-13T18:04:19Z) - $k$NN-Adapter: Efficient Domain Adaptation for Black-Box Language Models [18.969047541720123]
$k$NN-Adapterは、大きな言語モデルを新しいドメインに適応させる方法である。
4つの異なるドメインの実験では、$k$NN-Adapterがパープレキシティを大幅に改善している。
論文 参考訳(メタデータ) (2023-02-21T18:54:21Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。
その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T23:20:24Z) - ReLU Regression with Massart Noise [52.10842036932169]
本稿では、ReLU回帰の基本的問題として、Rectified Linear Units(ReLU)をデータに適合させることを目標としている。
我々は自然およびよく研究された半ランダムノイズモデルであるMassartノイズモデルにおけるReLU回帰に着目した。
このモデルにおいて,パラメータの正確な回復を実現する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-10T02:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。