Fugu-MT 論文翻訳(概要): Great Memory, Shallow Reasoning: Limits of $k$NN-LMs

論文の概要: Great Memory, Shallow Reasoning: Limits of $k$NN-LMs

arxiv url: http://arxiv.org/abs/2408.11815v1
Date: Wed, 21 Aug 2024 17:59:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 15:58:35.746104
Title: Great Memory, Shallow Reasoning: Limits of $k$NN-LMs
Title（参考訳）: 素晴らしい記憶と浅すぎる推論:$k$NN-LMsの限界
Authors: Shangyi Geng, Wenting Zhao, Alexander M Rush,
Abstract要約: 検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
参考スコア（独自算出の注目度）: 71.73611113995143
License: http://creativecommons.org/licenses/by/4.0/
Abstract: $K$-nearest neighbor language models ($k$NN-LMs), which integrate retrieval with next-word prediction, have demonstrated strong performance in language modeling as well as downstream NLP benchmarks. These results have led researchers to argue that models trained on poor quality or outdated data could perform well by employing a $k$NN extension that has access to a higher-quality datastore. In this work, we ask whether this improved ability to recall information really translates into downstream abilities. We extensively evaluate $k$NN-LMs on a diverse set of tasks, ranging from sentiment classification and commonsense reasoning to multi-hop reasoning. Results show that $k$NN-LMs excel at memory-intensive tasks, where utilizing the patterns in the input is sufficient for determining the output, but struggle with reasoning tasks that require integrating multiple pieces of information to derive new knowledge. We further demonstrate through oracle experiments and qualitative analysis that even with perfect retrieval, $k$NN-LMs still fail to determine the correct answers, placing an upper bound on their reasoning performance. Code and datastores are released at https://github.com/GSYfate/knnlm-limits/.
Abstract（参考訳）: K$-nearest 隣の言語モデル (k$NN-LMs) は、検索と次の単語予測を統合することで、言語モデリングだけでなく、下流のNLPベンチマークでも強力なパフォーマンスを示している。これらの結果から、高品質なデータストアにアクセス可能な$k$NN拡張を使用することで、品質の悪いデータや時代遅れのデータでトレーニングされたモデルの性能が向上すると主張している。本研究では、この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。我々は、感情分類やコモンセンス推論からマルチホップ推論まで、様々なタスクのセットで$k$NN-LMを広範囲に評価した。結果から,入力のパターンを利用すると出力を決定するのに十分なメモリ集約的なタスクでは$k$NN-LMsが優れていることがわかった。さらに,完全検索においても,$k$NN-LMsは正しい解答の判定に失敗し,推論性能に上限を置いていることを,オラクル実験や定性解析を通じて実証する。コードとデータストアはhttps://github.com/GSYfate/knnlm-limits/で公開されている。

関連論文リスト

FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos [18.3012265316413]
本稿では,新しいエンティティレベルの推論評価フレームワークである $textbfF$ine-fine $textbfE$ntity-level を提案する。我々のモデルは、GenAI-Benchが11.8%、MonetBenchが5.5%、トレーニングビデオが3.3kという既存の手法をはるかに上回っている。
論文参考訳（メタデータ） (2025-04-14T16:07:16Z)
Long-Tail Crisis in Nearest Neighbor Language Models [28.842830134043183]
k$NN-LMの成功の仮説は、その明示的な記憶、すなわちデータストアが長い尾現象の予測を強化するというものである。本稿では,低周波トークンに対する$k$NN-LMの挙動,予測確率,検索精度,データストア内のトークン分布,製品量子化の近似誤差について検討する。
論文参考訳（メタデータ） (2025-03-28T13:41:07Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark [53.091690659399234]
大規模言語モデル(LLM)の知識編集は注目されている。 3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質が不足している。我々は、新しいLarge $textbfV$ision-$textbfL$anguage Modelを構築するために、より信頼性の高いデータ収集手法を使用します。
論文参考訳（メタデータ） (2024-03-12T06:16:33Z)
Learning to Reduce: Optimal Representations of Structured Data in Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文参考訳（メタデータ） (2024-02-22T00:41:23Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
How Predictable Are Large Language Model Capabilities? A Case Study on BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。 95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。 BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文参考訳（メタデータ） (2023-05-24T09:35:34Z)
You can't pick your neighbors, or can you? When and how to rely on retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文参考訳（メタデータ） (2022-10-28T02:57:40Z)
Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data [82.92758444543689]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2022-03-16T17:37:27Z)
Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文参考訳（メタデータ） (2021-09-16T23:20:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。