論文の概要: LastingBench: Defend Benchmarks Against Knowledge Leakage
- arxiv url: http://arxiv.org/abs/2506.21614v1
- Date: Sat, 21 Jun 2025 13:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.923894
- Title: LastingBench: Defend Benchmarks Against Knowledge Leakage
- Title(参考訳): LastingBench: 知識漏洩に対するベンチマークを守る
- Authors: Yixiong Fang, Tianran Sun, Yuling Shi, Min Wang, Xiaodong Gu,
- Abstract要約: 大規模言語モデル(LLM)の複雑さは、タスク固有のデータを記憶することで、標準的な質問回答(QA)ベンチマークで"熱"する能力に関する懸念を提起する。
これは、真のモデル機能ではなく、データ漏洩の影響を反映しているため、ベンチマーク評価の妥当性を損なう。
LastingBenchは、知識リークに対して既存のベンチマークを継続的に強化し、保護するために設計された、新しいフレームワークである。
- 参考スコア(独自算出の注目度): 5.476393238638673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing complexity of large language models (LLMs) raises concerns about their ability to "cheat" on standard Question Answering (QA) benchmarks by memorizing task-specific data. This undermines the validity of benchmark evaluations, as they no longer reflect genuine model capabilities but instead the effects of data leakage. While prior work has focused on detecting such leakage, little attention has been given to mitigating its impact and preserving the long-term utility of benchmarks. In this paper, we introduce LastingBench, a novel framework designed to continuously reinforce and safeguard existing benchmarks against knowledge leakage. LastingBench identifies leakage points in the context through perturbation, then rewrites the leakage points to counterfactual ones-disrupting memorization while preserving the benchmark's original evaluative intent. Evaluations of state-of-the-art QA benchmarks show significant performance gaps, highlighting the efficacy of LastingBench in reducing memorization effects. LastingBench offers a practical and scalable solution to ensure benchmark robustness over time, promoting fairer and more interpretable evaluations of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の複雑さの増大は、タスク固有のデータを記憶することで、標準的な質問回答(QA)ベンチマークで"焼く"能力に関する懸念を提起する。
これは、真のモデル機能ではなく、データ漏洩の影響を反映しているため、ベンチマーク評価の妥当性を損なう。
以前の研究はそのようなリークを検出することに重点を置いていたが、その影響を緩和し、ベンチマークの長期的な有効性を維持することにはほとんど注意が払われていない。
本稿では,LastingBenchについて紹介する。LastingBenchは,知識リークに対する既存のベンチマークの継続的な強化と保護を目的とした,新しいフレームワークである。
LastingBenchは、摂動を通じてコンテキスト内のリークポイントを特定し、その後、ベンチマークの本来の評価意図を保ちながら、リークポイントを反ファクト的な破壊記憶に書き直す。
最先端のQAベンチマークの評価では、メモリ化効果の低減にLastingBenchの有効性が強調されている。
LastingBenchは、時間とともにベンチマークの堅牢性を確保するための実用的でスケーラブルなソリューションを提供し、LLMのより公平で解釈可能な評価を促進する。
関連論文リスト
- The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,問題記述のみからのファイルパス識別と,現在のファイルコンテキストと問題記述のみによる基底真理関数の再現という,2つの診断タスクを紹介する。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
このパフォーマンスは、SWE-Benchに含まれていないリポジトリのタスクで最大53%向上し、データ汚染やメモリ化の可能性を示している。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - Jailbreak Distillation: Renewable Safety Benchmarking [42.07193013496905]
大規模言語モデル(LLM)は、重要なアプリケーションに急速にデプロイされ、堅牢な安全性ベンチマークの緊急ニーズが高まる。
JBDistill(ジェイルブレイク蒸留)は、ジェイルブレイク攻撃を高品質で容易に更新可能な安全ベンチマークに"拡散"する新しいベンチマーク構築フレームワークである。
論文 参考訳(メタデータ) (2025-05-28T06:59:46Z) - Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation [80.69067017594709]
大規模言語モデル(LLM)とそのエージェントモデルは、以前のタスクからの推論を維持するのに苦労する。
本稿では,従来の計算を直接再利用し,テスト時に過去のログから推論する新しいフレームワークであるLAGを提案する。
本手法は,ログを使用しない標準的なエージェントシステムよりも優れている。
論文 参考訳(メタデータ) (2025-05-20T14:14:38Z) - AntiLeakBench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.39683427262335]
既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。
本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:53:12Z) - Do These LLM Benchmarks Agree? Fixing Benchmark Evaluation with BenchBench [15.565644819269803]
過度に見落とされた方法論的選択がベンチマークコンセンサステスト(BAT)の結果にどのように影響するかを示す。
我々は、BAT用のピソンパッケージであるBenchBenchを紹介し、ベンチマークを仲間を使って評価するためのメタベンチマークであるBenchBench- Leaderboardをリリースする。
論文 参考訳(メタデータ) (2024-07-18T17:00:23Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。