Fugu-MT 論文翻訳(概要): Benchmark Leakage Trap: Can We Trust LLM-based Recommendation?

論文の概要: Benchmark Leakage Trap: Can We Trust LLM-based Recommendation?

arxiv url: http://arxiv.org/abs/2602.13626v1
Date: Sat, 14 Feb 2026 06:34:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-17 14:17:28.240237
Title: Benchmark Leakage Trap: Can We Trust LLM-based Recommendation?
Title（参考訳）: ベンチマークリーク: LLMベースの勧告を信頼できるか?
Authors: Mingqiao Zhang, Qiyao Peng, Yumeng Wang, Chunyuan Liu, Hongtao Liu,
Abstract要約: 本稿は,LLM ベースの推薦におけるベンチマークデータ漏洩という,これまで見過ごされてきた問題を特定し,検討する。データ漏洩はLLMベースのレコメンデーションにおいて重要な要因であり、真のモデルパフォーマンスに影響を与える可能性がある。
参考スコア（独自算出の注目度）: 9.574427977779235
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The expanding integration of Large Language Models (LLMs) into recommender systems poses critical challenges to evaluation reliability. This paper identifies and investigates a previously overlooked issue: benchmark data leakage in LLM-based recommendation. This phenomenon occurs when LLMs are exposed to and potentially memorize benchmark datasets during pre-training or fine-tuning, leading to artificially inflated performance metrics that fail to reflect true model performance. To validate this phenomenon, we simulate diverse data leakage scenarios by conducting continued pre-training of foundation models on strategically blended corpora, which include user-item interactions from both in-domain and out-of-domain sources. Our experiments reveal a dual-effect of data leakage: when the leaked data is domain-relevant, it induces substantial but spurious performance gains, misleadingly exaggerating the model's capability. In contrast, domain-irrelevant leakage typically degrades recommendation accuracy, highlighting the complex and contingent nature of this contamination. Our findings reveal that data leakage acts as a critical, previously unaccounted-for factor in LLM-based recommendation, which could impact the true model performance. We release our code at https://github.com/yusba1/LLMRec-Data-Leakage.
Abstract（参考訳）: 大規模言語モデル(LLM)をレコメンデーションシステムに統合することは、信頼性を評価する上で重要な課題となる。本稿は,LLM ベースの推薦におけるベンチマークデータ漏洩という,これまで見過ごされてきた問題を特定し,検討する。この現象は、LLMが事前トレーニングや微調整中にベンチマークデータセットに公開され、潜在的に記憶されたときに起こり、真のモデルパフォーマンスを反映しない人工的に膨らんだパフォーマンスメトリクスにつながる。この現象を検証するため,本研究では,ドメイン内およびドメイン外の両方からのユーザとイテムの相互作用を含む,戦略的に混合したコーパス上で基礎モデルの継続的な事前学習を行うことにより,多様なデータ漏洩シナリオをシミュレートする。我々の実験は、データ漏洩の二重効果を明らかにしている: 漏洩したデータがドメイン関連である場合、それは実質的ではあるが突発的な性能向上を誘発し、誤ってモデルの能力を誇張する。対照的に、ドメイン非関連なリークは一般的に推奨の精度を低下させ、この汚染の複雑で断続的な性質を強調している。以上の結果から,データ漏洩はLLMに基づく推薦において重要な要因であり,真のモデル性能に影響を及ぼす可能性が示唆された。コードをhttps://github.com/yusba1/LLMRec-Data-Leakageでリリースします。

関連論文リスト

LNE-Blocking: An Efficient Framework for Contamination Mitigation Evaluation on Large Language Models [42.94267844722955]
我々は,潜在的に漏洩したデータセットを汚染する前にモデル性能を復元する新しいフレームワークである textbfLNE-Blocking を提案する。私たちのフレームワークは、モデルの性能を効率的に回復する最初のフレームワークです。
論文参考訳（メタデータ） (2025-09-18T17:59:16Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Aligning Language Models with Observational Data: Opportunities and Risks from a Causal Perspective [0.0]
本研究では,観測データを用いた大規模言語モデルの微調整の課題と機会について検討する。観察結果が貴重な監視を提供する一方で、そのようなデータを直接微調整することで、素早い相関関係を学習できることが示される。報奨信号から既知の共同創設者の効果を明示的に除去する手法であるDeconfoundLMを提案する。
論文参考訳（メタデータ） (2025-05-30T18:44:09Z)
LessLeak-Bench: A First Investigation of Data Leakage in LLMs Across 83 Software Engineering Benchmarks [15.584759853972992]
大規模言語モデル(LLM)は、コード生成やプログラムの自動修復といったソフトウェア工学(SE)タスクで広く利用されている。広範囲かつしばしば開示されていない事前トレーニングデータセットへの依存は、データ漏洩に関する重大な懸念を提起する。本稿では,LLM に関する 83 SE ベンチマークにおいて,データ漏洩の大規模解析を行った。
論文参考訳（メタデータ） (2025-02-10T07:33:49Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文参考訳（メタデータ） (2025-01-24T08:18:56Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。 4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。 GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文参考訳（メタデータ） (2023-10-16T17:51:29Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。