論文の概要: KNN-LM Does Not Improve Open-ended Text Generation
- arxiv url: http://arxiv.org/abs/2305.14625v1
- Date: Wed, 24 May 2023 01:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:36:55.191406
- Title: KNN-LM Does Not Improve Open-ended Text Generation
- Title(参考訳): KNN-LMは、オープンなテキスト生成を改善しない
- Authors: Shufan Wang, Yixiao Song, Andrew Drozdov, Aparna Garimella, Varun
Manjunatha, Mohit Iyyer
- Abstract要約: 検索強化言語モデル(LM)の生成品質について検討する。
検索分布の補間は, ベースライントランスフォーマーLMと比較して, 実際にパープレキシティを増大させることがわかった。
検索分布のエントロピーは、生成シーケンスが長くなるにつれて、ベースLMのエントロピーよりも速く増加する。
- 参考スコア(独自算出の注目度): 34.86733697757264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the generation quality of interpolation-based
retrieval-augmented language models (LMs). These methods, best exemplified by
the KNN-LM, interpolate the LM's predicted distribution of the next word with a
distribution formed from the most relevant retrievals for a given prefix. While
the KNN-LM and related methods yield impressive decreases in perplexity, we
discover that they do not exhibit corresponding improvements in open-ended
generation quality, as measured by both automatic evaluation metrics (e.g.,
MAUVE) and human evaluations. Digging deeper, we find that interpolating with a
retrieval distribution actually increases perplexity compared to a baseline
Transformer LM for the majority of tokens in the WikiText-103 test set, even
though the overall perplexity is lower due to a smaller number of tokens for
which perplexity dramatically decreases after interpolation. However, when
decoding a long sequence at inference time, significant improvements on this
smaller subset of tokens are washed out by slightly worse predictions on most
tokens. Furthermore, we discover that the entropy of the retrieval distribution
increases faster than that of the base LM as the generated sequence becomes
longer, which indicates that retrieval is less reliable when using
model-generated text as queries (i.e., is subject to exposure bias). We hope
that our analysis spurs future work on improved decoding algorithms and
interpolation strategies for retrieval-augmented language models.
- Abstract(参考訳): 本稿では,補間に基づく検索強化言語モデル(LM)の生成品質について検討する。
これらの方法は、KNN-LMによって最もよく例示され、予測された次の単語の分布と、与えられたプレフィックスの最も関連性の高い検索から形成される分布を補間する。
KNN-LMと関連する手法は、難易度を著しく低下させるが、自動評価指標(MAUVEなど)と人的評価の両方で測定されるように、オープンエンド世代品質の改善は示されていない。
さらに深く掘り下げると、検索分布との補間はwikitext-103テストセットの多くのトークンに対するベースライントランスフォーマーlmと比較して実際にはパープレキシティを増加させるが、補間後にパープレキシティが劇的に減少するトークンの数が少ないため全体のパープレキシティは低い。
しかし、推論時に長いシーケンスをデコードする場合、この小さなトークンのサブセットに対する大幅な改善は、ほとんどのトークンの予測を少し下回ることで排除される。
さらに,生成シーケンスが長くなるにつれて,検索分布のエントロピーがベースlmのエントロピーよりも速くなり,モデル生成テキストをクエリとして使用する場合(つまり露出バイアスを受ける場合),検索の信頼性が低下することを示す。
我々は,この分析が,検索型言語モデルの復号化アルゴリズムと補間戦略の改善を後押しすることを期待している。
関連論文リスト
- Correlation and Navigation in the Vocabulary Key Representation Space of Language Models [33.747872934103334]
鍵分布がNTP分布に及ぼす影響について検討した。
NTP分布では、いくつかの上位トークンが典型的に正確であることを示す。
提案手法をオープンエンドおよびチェーンオブ思考(推論)生成に拡張する。
論文 参考訳(メタデータ) (2024-10-03T08:07:55Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。
Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文 参考訳(メタデータ) (2023-01-07T11:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。