論文の概要: AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models
- arxiv url: http://arxiv.org/abs/2501.13983v3
- Date: Mon, 03 Mar 2025 02:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:05:05.880579
- Title: AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models
- Title(参考訳): AdEval: 大規模言語モデルにおけるデータ汚染軽減のためのアライメントに基づく動的評価
- Authors: Yang Fan,
- Abstract要約: AdEvalはデータ汚染が信頼性に与える影響を緩和することを目的とした動的データ評価手法である。
複数のデータセットに対する実験結果から、AdEvalはデータ汚染が評価結果に与える影響を効果的に低減することが示された。
- 参考スコア(独自算出の注目度): 2.463617251923349
- License:
- Abstract: As Large Language Models (LLMs) are pretrained on massive-scale corpora, the issue of data contamination has become increasingly severe, leading to potential overestimation of model performance during evaluation. To address this, we propose AdEval (Alignment-based Dynamic Evaluation), a dynamic data evaluation method aimed at mitigating the impact of data contamination on evaluation reliability. Experimental results on multiple datasets demonstrate that AdEval effectively reduces the impact of data contamination on evaluation outcomes, enhancing both the fairness and reliability of the evaluation process.
- Abstract(参考訳): 大言語モデル(LLM)が大規模コーパスで事前訓練されているため、データ汚染の問題はますます深刻化しており、評価中のモデル性能の過大評価につながる可能性がある。
そこで本稿では,データ汚染が信頼性に与える影響を緩和する動的データ評価手法であるAdEvalを提案する。
複数のデータセットに対する実験結果から、AdEvalはデータ汚染が評価結果に与える影響を効果的に低減し、評価プロセスの公平性と信頼性を向上することを示した。
関連論文リスト
- Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - How Contaminated Is Your Benchmark? Quantifying Dataset Leakage in Large Language Models with Kernel Divergence [23.019102917957152]
データセットはトレーニング前のコーパスと重複し、パフォーマンスメトリクスを膨らませ、モデル評価の信頼性を損なう。
我々は,サンプル埋め込みのカーネル類似度行列間のばらつきを計算し,データセット汚染を定量化する新しい手法であるKernel Divergence Score (KDS)を提案する。
KDSは汚染レベルとほぼ完璧な相関を示し、既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-02T05:50:39Z) - Integrating Dynamic Correlation Shifts and Weighted Benchmarking in Extreme Value Analysis [1.8641315013048299]
本稿では、EVDBM(Extreme Value Dynamic Benchmarking Method)を導入することにより、EVA(Extreme Value Analysis)に対する革新的なアプローチを提案する。
EVDBMは極端な事象を検出するために極端な値理論を統合し、新しいDISC(Dynamic Identification of Significant correlation)-Thresholdingアルゴリズムと結合している。
EVDBMの柔軟性は、意思決定の感度が不可欠である他のセクターの幅広い応用の可能性を示している。
論文 参考訳(メタデータ) (2024-11-19T21:00:39Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Evaluation of Synthetic Datasets for Conversational Recommender Systems [0.0]
堅牢な評価フレームワークがないことは長年の問題だった。
ダウンストリームアプリケーションでは,トレーニングデータの質が重要なので,その質を評価する指標を開発することが重要である。
本稿では,生成モデルが生成したデータセットを評価するために,多面的アプローチを採用するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-12T18:53:10Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。