論文の概要: Recent Advances in Large Langauge Model Benchmarks against Data Contamination: From Static to Dynamic Evaluation
- arxiv url: http://arxiv.org/abs/2502.17521v1
- Date: Sun, 23 Feb 2025 08:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:45.956783
- Title: Recent Advances in Large Langauge Model Benchmarks against Data Contamination: From Static to Dynamic Evaluation
- Title(参考訳): データ汚染に対するLangaugeモデルベンチマークの最近の進歩:静的評価から動的評価へ
- Authors: Simin Chen, Yiming Chen, Zexin Li, Yifan Jiang, Zhongwei Wan, Yixin He, Dezhi Ran, Tianle Gu, Haizhou Li, Tao Xie, Baishakhi Ray,
- Abstract要約: データ汚染リスクの低減を目的とした静的・動的ベンチマーク手法の詳細な分析を行う。
本稿では、動的ベンチマークのための最適設計原則のシリーズを提案し、既存の動的ベンチマークの限界を解析する。
- 参考スコア(独自算出の注目度): 48.21783789732205
- License:
- Abstract: Data contamination has received increasing attention in the era of large language models (LLMs) due to their reliance on vast Internet-derived training corpora. To mitigate the risk of potential data contamination, LLM benchmarking has undergone a transformation from static to dynamic benchmarking. In this work, we conduct an in-depth analysis of existing static to dynamic benchmarking methods aimed at reducing data contamination risks. We first examine methods that enhance static benchmarks and identify their inherent limitations. We then highlight a critical gap-the lack of standardized criteria for evaluating dynamic benchmarks. Based on this observation, we propose a series of optimal design principles for dynamic benchmarking and analyze the limitations of existing dynamic benchmarks. This survey provides a concise yet comprehensive overview of recent advancements in data contamination research, offering valuable insights and a clear guide for future research efforts. We maintain a GitHub repository to continuously collect both static and dynamic benchmarking methods for LLMs. The repository can be found at this link.
- Abstract(参考訳): 大規模言語モデル (LLM) の時代には, 膨大なインターネット学習コーパスに依存したデータ汚染が注目されている。
潜在的なデータ汚染のリスクを軽減するため、LLMベンチマークは静的なベンチマークから動的ベンチマークへ変換されている。
本研究では,データ汚染リスクの低減を目的とした静的・動的ベンチマーク手法の詳細な解析を行う。
まず、静的ベンチマークを強化し、それら固有の制限を識別する手法を検討する。
次に、動的ベンチマークを評価するための標準基準の欠如について、重要なギャップを強調します。
そこで本研究では,動的ベンチマークのための一連の最適設計原則を提案し,既存の動的ベンチマークの限界を解析する。
この調査は、データ汚染研究の最近の進歩を簡潔かつ包括的に概観し、貴重な洞察と今後の研究活動のための明確なガイドを提供する。
LLMの静的および動的ベンチマークメソッドを継続的に収集するために、GitHubリポジトリを維持しています。
リポジトリは、このリンクを参照してください。
関連論文リスト
- A Survey on Data Contamination for Large Language Models [12.431575579432458]
大規模言語モデル(LLM)は、テキスト生成やコード合成など、様々な分野で大きな進歩を見せている。
データ汚染による性能評価の信頼性は精査されている。
論文 参考訳(メタデータ) (2025-02-20T10:23:27Z) - AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.39683427262335]
既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。
本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:53:12Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な戦略基準のフォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの主要な概念を紹介します。
検索強化生成と強化学習を用いてこれらの概念を実装するエージェントベースの評価フレームワークであるTestAgentを提案する。
TestAgentは、さまざまな垂直ドメインシナリオにわたる動的ベンチマークの自動生成と詳細な評価を可能にする。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - A Theory of Dynamic Benchmarks [24.170405353348592]
動的ベンチマークの利点と実用的限界について検討する。
これらの結果は、経験的作業における観察されたボトルネックに関する理論的基礎と因果的説明を提供する。
論文 参考訳(メタデータ) (2022-10-06T18:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。