論文の概要: CoreEval: Automatically Building Contamination-Resilient Datasets with Real-World Knowledge toward Reliable LLM Evaluation
- arxiv url: http://arxiv.org/abs/2511.18889v1
- Date: Mon, 24 Nov 2025 08:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.116151
- Title: CoreEval: Automatically Building Contamination-Resilient Datasets with Real-World Knowledge toward Reliable LLM Evaluation
- Title(参考訳): CoreEval: 信頼性LLM評価に向けた実世界の知識による汚染耐性データセットの自動構築
- Authors: Jingqian Zhao, Bingbing Wang, Geng Tu, Yice Zhang, Qianlong Wang, Bin Liang, Jing Li, Ruifeng Xu,
- Abstract要約: データ汚染は、自然言語処理タスクにおけるLLM評価の公平性にとって重要な課題である。
実世界の知識でデータを自動的に更新する戦略である textbfCoreEval を提案する。
- 参考スコア(独自算出の注目度): 38.14943360647566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data contamination poses a significant challenge to the fairness of LLM evaluations in natural language processing tasks by inadvertently exposing models to test data during training. Current studies attempt to mitigate this issue by modifying existing datasets or generating new ones from freshly collected information. However, these methods fall short of ensuring contamination-resilient evaluation, as they fail to fully eliminate pre-existing knowledge from models or preserve the semantic complexity of the original datasets. To address these limitations, we propose \textbf{CoreEval}, a \textbf{Co}ntamination-\textbf{re}silient \textbf{Eval}uation strategy for automatically updating data with real-world knowledge. This approach begins by extracting entity relationships from the original data and leveraging the GDELT database to retrieve relevant, up-to-date knowledge. The retrieved knowledge is then recontextualized and integrated with the original data, which is refined and restructured to ensure semantic coherence and enhanced task relevance. Ultimately, a robust data reflection mechanism is employed to iteratively verify and refine labels, ensuring consistency between the updated and original datasets. Extensive experiments on updated datasets validate the robustness of CoreEval, demonstrating its effectiveness in mitigating performance overestimation caused by data contamination.
- Abstract(参考訳): データ汚染は、自然言語処理タスクにおけるLLM評価の公平性に対して、トレーニング中のテストデータに不注意にモデルを露出させることで、重要な課題となる。
現在の研究では、既存のデータセットを変更したり、新たに収集された情報から新しいデータセットを生成することで、この問題を緩和しようとしている。
しかしながら、これらの手法は、モデルから既存の知識を完全に排除したり、元のデータセットのセマンティックな複雑さを維持できないため、汚染耐性評価を保証するには不十分である。
これらの制約に対処するため、実世界の知識で自動的にデータを更新するための \textbf{CoreEval}, a \textbf{Co}ntamination-\textbf{re}silient \textbf{Eval}uation 戦略を提案する。
このアプローチは、元のデータからエンティティ関係を抽出し、GDELTデータベースを利用して関連する最新の知識を取得することから始まります。
検索した知識は再テキスト化され、元のデータと統合され、セマンティック・コヒーレンスとタスク関連性の向上を保証するために洗練・再構成される。
最終的に、ロバストなデータリフレクションメカニズムを使用してラベルを反復的に検証し、洗練し、更新されたデータセットと元のデータセット間の一貫性を保証する。
更新データセットに関する大規模な実験は、CoreEvalの堅牢性を検証し、データ汚染によるパフォーマンス過大評価を緩和する効果を実証した。
関連論文リスト
- The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data [25.926467401802046]
大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。
本稿では,2次元から合成データを評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-25T06:40:25Z) - Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data [84.37348569981307]
自己教師付き事前学習に基づく第一種能力推定モデルを提案する。
我々のモデルは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-05T08:58:35Z) - Byzantine-Robust Federated Learning Using Generative Adversarial Networks [1.4091801425319963]
フェデレートラーニング(FL)は、生データを共有せずに分散クライアント間で協調的なモデルトレーニングを可能にするが、その堅牢性は、データやモデル中毒といったビザンチンの行動によって脅かされている。
本稿では,クライアントの更新を検証するための代表データを生成するために,サーバ上の条件付き生成逆ネットワーク(cGAN)を活用することで,これらの課題に対処する防衛フレームワークを提案する。
このアプローチは、外部データセットへの依存を排除し、多様な攻撃戦略に適応し、標準FLにシームレスに統合する。
論文 参考訳(メタデータ) (2025-03-26T18:00:56Z) - AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models [2.463617251923349]
AdEval は anAlignment ベースの Dynamic Evaluation メソッドである。
静的なデータセットから知識ポイントと主要なアイデアを抽出し、静的なベンチマークのコアコンテンツとの動的アライメントを実現する。
ブルームの認知階層に基づく質問を、記憶、理解、適用、分析、評価、作成の6次元にわたって設計し、多段階認知評価を可能にする。
論文 参考訳(メタデータ) (2025-01-23T06:57:24Z) - AntiLeakBench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.39683427262335]
既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。
本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:53:12Z) - SUMIE: A Synthetic Benchmark for Incremental Entity Summarization [6.149024468471498]
既存のデータセットは、言語モデルがエンティティの要約を段階的に更新できるかどうかを適切にテストしていません。
我々は、実世界のIES課題を明らかにするために設計された、完全に合成されたデータセットであるSUMIEを紹介する。
このデータセットは、誤ったエンティティアソシエーションや不完全な情報提示といった問題を効果的に強調する。
論文 参考訳(メタデータ) (2024-06-07T16:49:21Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - A Deep-Learning Intelligent System Incorporating Data Augmentation for
Short-Term Voltage Stability Assessment of Power Systems [9.299576471941753]
本稿では,電力系統のSTVSAにデータ拡張を取り入れた新しいディープラーニング知能システムを提案する。
半教師付きクラスタ学習を利用して、ラベル付きサンプルを元の小さなデータセットで取得する。
条件付き最小二乗生成逆数ネットワーク(LSGAN)ベースのデータ拡張を導入し、元のデータセットを拡張する。
論文 参考訳(メタデータ) (2021-12-05T11:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。