論文の概要: AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models
- arxiv url: http://arxiv.org/abs/2501.13983v1
- Date: Thu, 23 Jan 2025 06:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:28.913426
- Title: AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models
- Title(参考訳): AdEval: 大規模言語モデルにおけるデータ汚染軽減のためのアライメントに基づく動的評価
- Authors: Yang Fan,
- Abstract要約: AdEvalはデータ汚染が信頼性に与える影響を緩和することを目的とした動的データ評価手法である。
キーとなる知識ポイントと主要なアイデアを抽出し、動的に生成された質問を静的データの中核的な概念と整合させる。
また、オンライン検索を活用して、関連する知識ポイントの詳細な説明を提供し、高品質な評価サンプルを作成する。
- 参考スコア(独自算出の注目度): 2.463617251923349
- License:
- Abstract: As Large Language Models (LLMs) are pretrained on massive-scale corpora, the issue of data contamination has become increasingly severe, leading to potential overestimation of model performance during evaluation. To address this, we propose AdEval (Alignment-based Dynamic Evaluation), a dynamic data evaluation method aimed at mitigating the impact of data contamination on evaluation reliability. AdEval extracts key knowledge points and main ideas to align dynamically generated questions with static data's core concepts. It also leverages online search to provide detailed explanations of related knowledge points, thereby creating high-quality evaluation samples with robust knowledge support. Furthermore, AdEval incorporates mechanisms to control the number and complexity of questions, enabling dynamic alignment and flexible adjustment. This ensures that the generated questions align with the complexity of static data while supporting varied complexity levels. Based on Bloom's taxonomy, AdEval conducts a multi-dimensional evaluation of LLMs across six cognitive levels: remembering, understanding, applying, analyzing, evaluating, and creating. Experimental results on multiple datasets demonstrate that AdEval effectively reduces the impact of data contamination on evaluation outcomes, enhancing both the fairness and reliability of the evaluation process.
- Abstract(参考訳): 大言語モデル(LLM)が大規模コーパスで事前訓練されているため、データ汚染の問題はますます深刻化しており、評価中のモデル性能の過大評価につながる可能性がある。
そこで本稿では,データ汚染が信頼性に与える影響を緩和する動的データ評価手法であるAdEvalを提案する。
AdEvalは、動的に生成された質問を静的データの中核的な概念と整合させるために、重要な知識ポイントと主要なアイデアを抽出する。
また、オンライン検索を活用して、関連する知識ポイントの詳細な説明を提供し、堅牢な知識支援を伴う高品質な評価サンプルを作成する。
さらに、AdEvalは質問の数と複雑さを制御するメカニズムを導入し、動的アライメントと柔軟な調整を可能にしている。
これにより、生成された質問が、さまざまな複雑さレベルをサポートしながら、静的データの複雑さと一致することが保証される。
ブルームの分類に基づいて、AdEvalは6つの認知レベル(記憶、理解、応用、分析、評価、生成)にわたるLLMの多次元評価を行う。
複数のデータセットに対する実験結果から、AdEvalはデータ汚染が評価結果に与える影響を効果的に低減し、評価プロセスの公平性と信頼性を向上することを示した。
関連論文リスト
- Integrating Dynamic Correlation Shifts and Weighted Benchmarking in Extreme Value Analysis [1.8641315013048299]
本稿では、EVDBM(Extreme Value Dynamic Benchmarking Method)を導入することにより、EVA(Extreme Value Analysis)に対する革新的なアプローチを提案する。
EVDBMは極端な事象を検出するために極端な値理論を統合し、新しいDISC(Dynamic Identification of Significant correlation)-Thresholdingアルゴリズムと結合している。
EVDBMの柔軟性は、意思決定の感度が不可欠である他のセクターの幅広い応用の可能性を示している。
論文 参考訳(メタデータ) (2024-11-19T21:00:39Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - GMValuator: Similarity-based Data Valuation for Generative Models [41.76259565672285]
生成モデル評価器(GMValuator, Generative Model Valuator, GMValuator, GMValuator)を導入した。
GMValuatorは、その有効性を示すために、様々なデータセットや生成アーキテクチャで広く評価されている。
論文 参考訳(メタデータ) (2023-04-21T02:02:02Z) - Evaluation of Synthetic Datasets for Conversational Recommender Systems [0.0]
堅牢な評価フレームワークがないことは長年の問題だった。
ダウンストリームアプリケーションでは,トレーニングデータの質が重要なので,その質を評価する指標を開発することが重要である。
本稿では,生成モデルが生成したデータセットを評価するために,多面的アプローチを採用するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-12T18:53:10Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。