論文の概要: Hallucinate or Memorize? The Two Sides of Probabilistic Learning in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.08877v1
- Date: Thu, 13 Nov 2025 01:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.275897
- Title: Hallucinate or Memorize? The Two Sides of Probabilistic Learning in Large Language Models
- Title(参考訳): 幻覚か記憶か : 大規模言語モデルにおける確率的学習の2つの側面
- Authors: Junichiro Niimi,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語理解からコード生成に至るまで、幅広いタスクにますます適用されてきた。
引用の推薦にも使われてきたが、現存しない論文の幻覚は依然として大きな問題である。
この研究は、LLMがレコードを正しく生成する能力は、基礎となる知識が生成されるか記憶されるかに依存すると仮定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been increasingly applied to a wide range of tasks, from natural language understanding to code generation. While they have also been used to assist in citation recommendation, the hallucination of non-existent papers remains a major issue. Building on prior studies, this study hypothesizes that an LLM's ability to correctly produce bibliographic records depends on whether the underlying knowledge is generated or memorized, with highly cited papers (i.e., more frequently appear in the pretraining corpus) showing lower hallucination rates. We therefore assume citation count as a proxy for training data redundancy (i.e., the frequency with which a given bibliographic record appears in the pretraining corpus) and investigate how citation frequency affects hallucinated references in LLM outputs. Using GPT-4.1, we generated and manually verified 100 citations across twenty computer-science domains, and measured factual consistency via cosine similarity between generated and authentic metadata. The results revealed that (i) citation count is strongly correlated with factual accuracy, (ii) bibliographic information becomes almost verbatim memorized beyond roughly 1,000 citations, and (iii) memory interference occurs when multiple highly cited papers share similar content. These findings indicate a threshold where generalization shifts into memorization, with highly cited papers being nearly verbatim retained in the model.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語理解からコード生成に至るまで、幅広いタスクにますます適用されてきた。
引用の推薦にも使われてきたが、現存しない論文の幻覚は依然として大きな問題である。
先行研究に基づいて, LLMが書誌記録を正しく作成する能力は, 基礎となる知識が生成されるか記憶されるかに依存すると仮定した。
そこで我々は,引用回数を学習データ冗長性(事前学習コーパスに所定の書誌記録が現れる頻度)の指標として仮定し,引用頻度がLLM出力の幻覚的参照にどう影響するかを検討する。
GPT-4.1を用いて、20のコンピュータサイエンス領域にわたる100の引用を生成し手動で検証し、生成メタデータと真正メタデータのコサイン類似性を用いて実測結果の整合性を測定した。
その結果、
(i)引用回数は、事実の正確性と強く相関している。
(二 書誌情報は、約千点以上の引用をほとんど暗記し、
(iii)複数の高度に引用された論文が類似した内容を共有すると、記憶障害が発生する。
これらの結果から, 一般化が記憶に移行する閾値が示唆され, 論文がほとんど冗長に保たれていることが示唆された。
関連論文リスト
- Hallucinations in Bibliographic Recommendation: Citation Frequency as a Proxy for Training Data Redundancy [0.0]
大型幻覚モデル (LLMs) は幅広いタスクに適用されてきている。
この研究は、LLMが情報を正しく生成する能力は、基礎となる知識が生成されるか記憶されるかに依存すると仮定する。
論文 参考訳(メタデータ) (2025-10-29T10:51:35Z) - Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [44.31597857713689]
最初の段階でActive Indexingを導入し、一般化可能なソースアンコールバインディングを作成します。
Qwen-2.5-7B&3Bの実験は、アクティブインデックスがパッシブインデックスのベースラインを一貫して上回っていることを示している。
内部の引用は、モデルを検索ノイズに対してより堅牢にすることで、外部の引用を補完する。
論文 参考訳(メタデータ) (2025-06-21T04:48:05Z) - The Noisy Path from Source to Citation: Measuring How Scholars Engage with Past Research [20.649638393774048]
本稿では,大規模な引用忠実度を定量化する計算パイプラインを提案する。
論文の全文を用いて、パイプラインは引用論文における引用と引用論文における対応するクレームを識別する。
準実験を用いて「電話効果」を確立する - 引用論文が原主張に忠実度が低い場合、引用論文と原文を引用する将来の論文は原文に忠実度が低い。
論文 参考訳(メタデータ) (2025-02-27T22:47:03Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Deep Graph Learning for Anomalous Citation Detection [55.81334139806342]
本稿では,新たな深層グラフ学習モデルであるGLAD(Graph Learning for Anomaly Detection)を提案する。
GLADフレームワーク内ではCPU(Citation PUrpose)と呼ばれるアルゴリズムが提案され,引用テキストに基づく引用の目的が明らかになった。
論文 参考訳(メタデータ) (2022-02-23T09:05:28Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Towards generating citation sentences for multiple references with
intent control [86.53829532976303]
We build a novel generation model with the Fusion-in-Decoder approach to handlee with multiple long inputs。
実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。
論文 参考訳(メタデータ) (2021-12-02T15:32:24Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。