論文の概要: Why do Nearest Neighbor Language Models Work?
- arxiv url: http://arxiv.org/abs/2301.02828v1
- Date: Sat, 7 Jan 2023 11:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 15:50:03.624586
- Title: Why do Nearest Neighbor Language Models Work?
- Title(参考訳): 近隣言語モデルはなぜ機能するのか?
- Authors: Frank F. Xu, Uri Alon, Graham Neubig
- Abstract要約: 言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。
Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
- 参考スコア(独自算出の注目度): 93.71050438413121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) compute the probability of a text by sequentially
computing a representation of an already-seen context and using this
representation to predict the next word. Currently, most LMs calculate these
representations through a neural network consuming the immediate previous
context. However recently, retrieval-augmented LMs have shown to improve over
standard neural LMs, by accessing information retrieved from a large datastore,
in addition to their standard, parametric, next-word prediction. In this paper,
we set out to understand why retrieval-augmented language models, and
specifically why k-nearest neighbor language models (kNN-LMs) perform better
than standard parametric LMs, even when the k-nearest neighbor component
retrieves examples from the same training set that the LM was originally
trained on. To this end, we perform a careful analysis of the various
dimensions over which kNN-LM diverges from standard LMs, and investigate these
dimensions one by one. Empirically, we identify three main reasons why kNN-LM
performs better than standard LMs: using a different input representation for
predicting the next tokens, approximate kNN search, and the importance of
softmax temperature for the kNN distribution. Further, we incorporate these
insights into the model architecture or the training procedure of the standard
parametric LM, improving its results without the need for an explicit retrieval
component. The code is available at https://github.com/frankxu2004/knnlm-why.
- Abstract(参考訳): 言語モデル(LM)は、すでに見られる文脈の表現を逐次計算し、この表現を使って次の単語を予測することによって、テキストの確率を計算する。
現在、ほとんどのLMは、直前のコンテキストを消費するニューラルネットワークを通じてこれらの表現を計算する。
しかし、近年、検索拡張されたLMは、標準的なパラメトリックの次の単語予測に加えて、大きなデータストアから取得した情報にアクセスすることで、標準的なニューラルLMよりも改善されている。
本稿では,検索型言語モデル,特にk-nearest近傍言語モデル(knn-lms)が標準パラメトリックlmsよりも優れた性能を発揮する理由について,k-nearest隣接コンポーネントがlmが当初トレーニングしていたのと同じトレーニングセットから例を取り出す場合においても理解する。
この目的のために、kNN-LMが標準のLMから分岐する様々な次元を慎重に分析し、これらの次元を1つずつ調べる。
実験により、kNN-LMが標準のLMよりも優れている主な理由は、次のトークンの予測に異なる入力表現を用いること、kNN探索の近似、kNN分布におけるソフトマックス温度の重要性である。
さらに、これらの知見を標準パラメトリックLMのモデルアーキテクチャやトレーニング手順に組み込んで、明示的な検索コンポーネントを必要とせずに結果を改善する。
コードはhttps://github.com/frankxu2004/knnlm-whyで入手できる。
関連論文リスト
- Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval [51.437420003471615]
本稿では,検索拡張LMをゼロから共同で訓練するためのアーキテクチャおよび訓練手順であるRetrieval-Pretrained Transformer (RPT)を提案する。
RPTは検索品質を向上し、強いベースラインに比べてボード全体の難易度を向上する。
論文 参考訳(メタデータ) (2023-06-23T10:18:02Z) - KNN-LM Does Not Improve Open-ended Text Generation [34.86733697757264]
検索強化言語モデル(LM)の生成品質について検討する。
検索分布の補間は, ベースライントランスフォーマーLMと比較して, 実際にパープレキシティを増大させることがわかった。
検索分布のエントロピーは、生成シーケンスが長くなるにつれて、ベースLMのエントロピーよりも速く増加する。
論文 参考訳(メタデータ) (2023-05-24T01:48:33Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。