論文の概要: You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM
- arxiv url: http://arxiv.org/abs/2210.15859v1
- Date: Fri, 28 Oct 2022 02:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:22:19.694777
- Title: You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM
- Title(参考訳): 近所の人を選んではいけません。
k$NN-LMの検索にいつ、どのように依存するか
- Authors: Andrew Drozdov, Shufan Wang, Razieh Rahimi, Andrew McCallum, Hamed
Zamani, Mohit Iyyer
- Abstract要約: Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
- 参考スコア(独自算出の注目度): 65.74934004876914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-enhanced language models (LMs), which condition their predictions
on text retrieved from large external datastores, have recently shown
significant perplexity improvements compared to standard LMs. One such
approach, the $k$NN-LM, interpolates any existing LM's predictions with the
output of a $k$-nearest neighbors model and requires no additional training. In
this paper, we explore the importance of lexical and semantic matching in the
context of items retrieved by $k$NN-LM. We find two trends: (1) the presence of
large overlapping $n$-grams between the datastore and evaluation set plays an
important factor in strong performance, even when the datastore is derived from
the training data; and (2) the $k$NN-LM is most beneficial when retrieved items
have high semantic similarity with the query. Based on our analysis, we define
a new formulation of the $k$NN-LM that uses retrieval quality to assign the
interpolation coefficient. We empirically measure the effectiveness of our
approach on two English language modeling datasets, Wikitext-103 and PG-19. Our
re-formulation of the $k$NN-LM is beneficial in both cases, and leads to nearly
4% improvement in perplexity on the Wikitext-103 test set.
- Abstract(参考訳): 大規模な外部データストアから取得したテキストの予測を条件とした検索型言語モデル(LM)は,最近,標準のLMと比較して,大幅なパープレキシティ向上を示した。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間し、追加のトレーニングを必要としない。
本稿では,$k$NN-LMで検索した項目の文脈における語彙と意味のマッチングの重要性について検討する。
1)データストアと評価セットの間に大きな重複する$n$-gramの存在は,トレーニングデータからデータストアを抽出した場合でも,強いパフォーマンスにおいて重要な要因となり,(2)検索項目がクエリと意味的類似性が高い場合には,$k$NN-LMが最も有用である。
そこで本研究では,検索品質を用いて補間係数を割り当てる$k$NN-LMの新たな定式化を定義する。
ウィキテキスト103とPG-19の2つの英語モデリングデータセットに対するアプローチの有効性を実証的に測定した。
どちらも$k$NN-LMの再定式化は有益であり、Wikitext-103テストセットの難易度が約4%向上する。
関連論文リスト
- LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented
Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。
より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。
そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文 参考訳(メタデータ) (2023-02-11T02:43:34Z) - Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。
Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文 参考訳(メタデータ) (2023-01-07T11:12:36Z) - Nearest Neighbor Zero-Shot Inference [68.56747574377215]
kNN-Promptは、言語モデル(LM)を用いたゼロショット推論のためのk-nearest neighbor (kNN)検索拡張手法である。
ファジィ動詞化器は、各分類ラベルを自然言語トークンのセットに自動的に関連付けることで、下流タスクのスパースkNN分布を利用する。
実験により,kNN-Promptはドメイン適応に有効であり,さらに,kNN検索に使用するモデルのサイズに応じて,検索のメリットが増加することが示された。
論文 参考訳(メタデータ) (2022-05-27T07:00:59Z) - Neuro-Symbolic Language Modeling with Automaton-augmented Retrieval [129.25914272977542]
RetoMatonはデータストア上に構築された重み付き有限オートマトンである。
LM推論と並行して、このオートマトンを推論時にトラバースすることは、その複雑さを減少させる。
論文 参考訳(メタデータ) (2022-01-28T21:38:56Z) - Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。
その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T23:20:24Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。