論文の概要: Exploring Approaches for Detecting Memorization of Recommender System Data in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.02002v1
- Date: Mon, 05 Jan 2026 11:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.029686
- Title: Exploring Approaches for Detecting Memorization of Recommender System Data in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるレコメンダシステムデータのメモリ化検出のための探索的アプローチ
- Authors: Antonio Colacicco, Vito Guida, Dario Di Palma, Fedelucio Narducci, Tommaso Di Noia,
- Abstract要約: 大きな言語モデル(LLM)は、強力な自然言語理解と生成能力のため、推奨シナリオにますます適用されています。
最近の研究によると、MovieLens-1MデータセットはLLaMAとOpenAIモデルファミリの両方で記憶されている。
- 参考スコア(独自算出の注目度): 10.071073998660525
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly applied in recommendation scenarios due to their strong natural language understanding and generation capabilities. However, they are trained on vast corpora whose contents are not publicly disclosed, raising concerns about data leakage. Recent work has shown that the MovieLens-1M dataset is memorized by both the LLaMA and OpenAI model families, but the extraction of such memorized data has so far relied exclusively on manual prompt engineering. In this paper, we pose three main questions: Is it possible to enhance manual prompting? Can LLM memorization be detected through methods beyond manual prompting? And can the detection of data leakage be automated? To address these questions, we evaluate three approaches: (i) jailbreak prompt engineering; (ii) unsupervised latent knowledge discovery, probing internal activations via Contrast-Consistent Search (CCS) and Cluster-Norm; and (iii) Automatic Prompt Engineering (APE), which frames prompt discovery as a meta-learning process that iteratively refines candidate instructions. Experiments on MovieLens-1M using LLaMA models show that jailbreak prompting does not improve the retrieval of memorized items and remains inconsistent; CCS reliably distinguishes genuine from fabricated movie titles but fails on numerical user and rating data; and APE retrieves item-level information with moderate success yet struggles to recover numerical interactions. These findings suggest that automatically optimizing prompts is the most promising strategy for extracting memorized samples.
- Abstract(参考訳): 大きな言語モデル(LLM)は、強力な自然言語理解と生成能力のため、推奨シナリオにますます適用されています。
しかし、内容が公開されていない広大なコーパスでトレーニングを受けており、データ漏洩に関する懸念が高まっている。
最近の研究によると、MovieLens-1MデータセットはLLaMAとOpenAIモデルファミリの両方で記憶されている。
本稿では,手動プロンプトを強化することは可能か,という3つの主要な疑問を提起する。
手動のプロンプトを超える方法でLLM記憶を検出できるのか?
データ漏洩の検出は自動化できるのか?
これらの疑問に対処するため、我々は3つのアプローチを評価した。
(i)脱獄即時工学
(二)非監督潜在知識発見、コントラスト・コンスタント・サーチ(CCS)及びクラスタ・ノームによる内部アクティベーションの探索
3 自動分岐工学(APE)は、メタラーニングプロセスとして発見を促進させ、候補命令を反復的に洗練するものである。
LLaMAモデルを用いたMovieLens-1Mの実験では、jailbreakプロンプトは記憶されたアイテムの検索を改善しておらず、一貫性が保たれている。
これらの結果から, 自動最適化プロンプトは, 記憶されたサンプルを抽出する上で最も有望な戦略であることが示唆された。
関連論文リスト
- Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。
1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。
微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文 参考訳(メタデータ) (2024-02-16T06:29:16Z) - Prompt-Time Symbolic Knowledge Capture with Large Language Models [0.0]
ユーザ固有の知識で大きな言語モデル(LLM)を拡張することは、パーソナルAIアシスタントのような現実世界のアプリケーションにとって不可欠である。
本稿では,既存のLLM機能を活用して,迅速な知識獲得を実現する。
論文 参考訳(メタデータ) (2024-02-01T08:15:28Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。