Fugu-MT 論文翻訳(概要): You can't pick your neighbors, or can you? When and how to rely on retrieval in the $k$NN-LM

論文の概要: You can't pick your neighbors, or can you? When and how to rely on retrieval in the $k$NN-LM

arxiv url: http://arxiv.org/abs/2210.15859v1
Date: Fri, 28 Oct 2022 02:57:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-31 15:22:19.694777
Title: You can't pick your neighbors, or can you? When and how to rely on retrieval in the $k$NN-LM
Title（参考訳）: 近所の人を選んではいけません。 k$NN-LMの検索にいつ、どのように依存するか
Authors: Andrew Drozdov, Shufan Wang, Razieh Rahimi, Andrew McCallum, Hamed Zamani, Mohit Iyyer
Abstract要約: Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
参考スコア（独自算出の注目度）: 65.74934004876914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-enhanced language models (LMs), which condition their predictions on text retrieved from large external datastores, have recently shown significant perplexity improvements compared to standard LMs. One such approach, the $k$NN-LM, interpolates any existing LM's predictions with the output of a $k$-nearest neighbors model and requires no additional training. In this paper, we explore the importance of lexical and semantic matching in the context of items retrieved by $k$NN-LM. We find two trends: (1) the presence of large overlapping $n$-grams between the datastore and evaluation set plays an important factor in strong performance, even when the datastore is derived from the training data; and (2) the $k$NN-LM is most beneficial when retrieved items have high semantic similarity with the query. Based on our analysis, we define a new formulation of the $k$NN-LM that uses retrieval quality to assign the interpolation coefficient. We empirically measure the effectiveness of our approach on two English language modeling datasets, Wikitext-103 and PG-19. Our re-formulation of the $k$NN-LM is beneficial in both cases, and leads to nearly 4% improvement in perplexity on the Wikitext-103 test set.
Abstract（参考訳）: 大規模な外部データストアから取得したテキストの予測を条件とした検索型言語モデル(LM)は,最近,標準のLMと比較して,大幅なパープレキシティ向上を示した。そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間し、追加のトレーニングを必要としない。本稿では,$k$NN-LMで検索した項目の文脈における語彙と意味のマッチングの重要性について検討する。 1)データストアと評価セットの間に大きな重複する$n$-gramの存在は,トレーニングデータからデータストアを抽出した場合でも,強いパフォーマンスにおいて重要な要因となり,(2)検索項目がクエリと意味的類似性が高い場合には,$k$NN-LMが最も有用である。そこで本研究では,検索品質を用いて補間係数を割り当てる$k$NN-LMの新たな定式化を定義する。ウィキテキスト103とPG-19の2つの英語モデリングデータセットに対するアプローチの有効性を実証的に測定した。どちらも$k$NN-LMの再定式化は有益であり、Wikitext-103テストセットの難易度が約4%向上する。

関連論文リスト

Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From [61.63091726904068]
12言語にわたる40以上の大言語モデル(LLM)の言語間コンテキスト検索能力を評価する。いくつかの小さな訓練後のオープンLLMは、強い言語間コンテキスト検索能力を示している。また, 大規模プレトレーニングでは, xMRCの性能が向上することが示唆された。
論文参考訳（メタデータ） (2025-04-15T06:35:27Z)
Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文参考訳（メタデータ） (2024-08-21T17:59:05Z)
Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval [49.825549809652436]
$k$NN-MTはドメイン固有の翻訳知識を保持するために外部データストアを構築する。適応検索(k$NN-MT-AR)は、$lambda$を動的に推定し、$lambda$が固定しきい値以下であれば$k$NN検索をスキップする。本稿では,バニラ$k$NN-MTを大幅に拡張した動的検索(k$NN-MT-DR)を提案する。
論文参考訳（メタデータ） (2024-06-10T07:36:55Z)
CALRec: Contrastive Alignment of Generative LLMs for Sequential Recommendation [18.986613405565514]
大規模言語モデル(LLM)は、シーケンシャルなレコメンデーションのために大量のテキストコーパスで事前訓練される。本稿では,2つの対照的な損失と言語モデリング損失を混合して,事前学習したLLMを2tower方式で微調整する2段階のLLMファインタニングフレームワークを提案する。我々のモデルは、多くの最先端のベースラインを著しく上回ります。
論文参考訳（メタデータ） (2024-05-03T18:51:19Z)
Bridging the Domain Gaps in Context Representations for k-Nearest Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文参考訳（メタデータ） (2023-05-26T03:04:42Z)
Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。 LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文参考訳（メタデータ） (2023-05-22T14:23:46Z)
Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。 Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文参考訳（メタデータ） (2023-01-07T11:12:36Z)
Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文参考訳（メタデータ） (2021-09-16T23:20:24Z)
Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。多くの設定で一貫してパフォーマンスが向上する。
論文参考訳（メタデータ） (2020-10-01T22:24:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。