論文の概要: Long-Tail Crisis in Nearest Neighbor Language Models
- arxiv url: http://arxiv.org/abs/2503.22426v1
- Date: Fri, 28 Mar 2025 13:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:38.011378
- Title: Long-Tail Crisis in Nearest Neighbor Language Models
- Title(参考訳): 近隣言語モデルにおける長期的危機
- Authors: Yuto Nishida, Makoto Morishita, Hiroyuki Deguchi, Hidetaka Kamigaito, Taro Watanabe,
- Abstract要約: k$NN-LMの成功の仮説は、その明示的な記憶、すなわちデータストアが長い尾現象の予測を強化するというものである。
本稿では,低周波トークンに対する$k$NN-LMの挙動,予測確率,検索精度,データストア内のトークン分布,製品量子化の近似誤差について検討する。
- 参考スコア(独自算出の注目度): 28.842830134043183
- License:
- Abstract: The $k$-nearest-neighbor language model ($k$NN-LM), one of the retrieval-augmented language models, improves the perplexity for given text by directly accessing a large datastore built from any text data during inference. A widely held hypothesis for the success of $k$NN-LM is that its explicit memory, i.e., the datastore, enhances predictions for long-tail phenomena. However, prior works have primarily shown its ability to retrieve long-tail contexts, leaving the model's performance remain underexplored in estimating the probabilities of long-tail target tokens during inference. In this paper, we investigate the behavior of $k$NN-LM on low-frequency tokens, examining prediction probability, retrieval accuracy, token distribution in the datastore, and approximation error of the product quantization. Our experimental results reveal that $k$NN-LM does not improve prediction performance for low-frequency tokens but mainly benefits high-frequency tokens regardless of long-tail contexts in the datastore.
- Abstract(参考訳): 検索強化言語モデルの1つである$k$-nearest-neighbor言語モデル(k$NN-LM)は、推論中に任意のテキストデータから構築された大きなデータストアに直接アクセスすることで、与えられたテキストの難読性を改善する。
k$NN-LMの成功の仮説は、その明示的な記憶、すなわちデータストアが長い尾現象の予測を強化するというものである。
しかし、先行研究は、主にロングテールのコンテキストを検索する能力を示しており、モデルの性能は推論中にロングテールのターゲットトークンの確率を推定するのに過小評価されているままである。
本稿では,低周波トークンに対する$k$NN-LMの挙動を調査し,予測確率,検索精度,データストア内のトークン分布,製品量子化の近似誤差について検討する。
実験結果から,$k$NN-LMは低周波トークンの予測性能を向上しないが,データストアの長期コンテキストに関わらず,主に高周波トークンに有効であることがわかった。
関連論文リスト
- An Attempt to Unraveling Token Prediction Refinement and Identifying Essential Layers of Large Language Models [0.0]
本研究の目的は,大規模言語モデル (LLM) がいかに反復的にトークン予測を洗練するかを明らかにすることである。
我々は、LLMが入力コンテキストから情報にアクセスして利用する方法と、関連する情報の配置がモデルのトークン予測改善プロセスにどのように影響するかに焦点を当てた。
論文 参考訳(メタデータ) (2025-01-25T03:34:15Z) - Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - Better & Faster Large Language Models via Multi-token Prediction [29.067271500844928]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。
複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文 参考訳(メタデータ) (2024-04-30T17:33:57Z) - Towards Faster k-Nearest-Neighbor Machine Translation [51.866464707284635]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
本手法は,翻訳品質をわずかに低下させることなく,kNN検索のオーバーヘッドを最大53%削減する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。