論文の概要: Retrieval-Constrained Decoding Reveals Underestimated Parametric Knowledge in Language Models
- arxiv url: http://arxiv.org/abs/2509.23417v1
- Date: Sat, 27 Sep 2025 17:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.217972
- Title: Retrieval-Constrained Decoding Reveals Underestimated Parametric Knowledge in Language Models
- Title(参考訳): 言語モデルにおけるパラメトリック知識を過小評価した検索制約復号法
- Authors: Rajaa El Hamdani, Samy Haffoudhi, Nils Holzenberger, Fabian Suchanek, Thomas Bonald, Fragkiskos D. Malliaros,
- Abstract要約: 言語モデル(LM)は事実上の知識を符号化するが、しばしば誤った答えを導き出す。
本稿では,モデル出力を一意な曲面形式に制限する復号法であるRetrieval-Constrained Decoding (RCD)を提案する。
- 参考スコア(独自算出の注目度): 9.29429950019721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) encode substantial factual knowledge, but often produce answers judged as incorrect. We hypothesize that many of these answers are actually correct, but are expressed in alternative surface forms that are dismissed due to an overly strict evaluation, leading to an underestimation of models' parametric knowledge. We propose Retrieval-Constrained Decoding (RCD), a decoding strategy that restricts model outputs to unique surface forms. We introduce YAGO-QA, a dataset of 19,137 general knowledge questions. Evaluating open-source LMs from 135M to 70B parameters, we show that standard decoding undervalues their knowledge. For instance, Llama-3.1-70B scores only 32.3% F1 with vanilla decoding but 46.0% with RCD. Similarly, Llama-3.1-8B reaches 33.0% with RCD, outperforming the larger model under vanilla decoding. We publicly share the code and dataset at https://github.com/Rajjaa/disambiguated-LLM.
- Abstract(参考訳): 言語モデル(LM)は事実上の知識を符号化するが、しばしば誤った答えを導き出す。
これらの答えの多くは実際には正しいという仮説を立てるが、過度に厳密な評価によって取り除かれる別の曲面形式で表現され、モデルのパラメトリック知識の過小評価に繋がる。
本稿では,モデル出力を一意な曲面形式に制限する復号法であるRetrieval-Constrained Decoding (RCD)を提案する。
本稿では,19,137の一般知識質問のデータセットであるYAGO-QAを紹介する。
オープンソースLMを135Mから70Bパラメータに評価すると,標準復号法は知識を過小評価することを示す。
例えば、Llama-3.1-70Bは、バニラ復号法で32.3%のF1しか得点しないが、RCDでは46.0%である。
同様に、Llama-3.1-8B は RCD で 33.0% に達し、バニラ復号法でより大きなモデルを上回る。
コードとデータセットはhttps://github.com/Rajjaa/disambiguated-LLM.comで公開しています。
関連論文リスト
- Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation on Large Language Models [89.65955788873532]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - Inside-Out: Hidden Factual Knowledge in LLMs [50.79758420289131]
この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。
まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。
次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
論文 参考訳(メタデータ) (2025-03-19T15:21:48Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [70.78205685001168]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
UGBenchは、スコープ内暗黙の知識の未学習を評価するために特別に設計された最初のベンチマークである。
確率に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks [0.9831489366502301]
本稿では,これまで見られたトークンや概念から正解を完全に解離する,複数選択質問に対する一般的な変分手法を提案する。
この手法を用いて、英語とスペイン語で利用可能な2つのデータセットに基づいて、最先端のプロプライエタリおよびオープンソースLLMを評価する。
その結果, MMLUでは平均57%, UNED-Access 2024では50%の精度低下がみられた。
論文 参考訳(メタデータ) (2025-02-18T14:32:44Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。