Fugu-MT 論文翻訳(概要): AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models

論文の概要: AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models

arxiv url: http://arxiv.org/abs/2501.13983v3
Date: Mon, 03 Mar 2025 02:06:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-04 15:02:13.613298
Title: AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models
Title（参考訳）: AdEval: 大規模言語モデルにおけるデータ汚染軽減のためのアライメントに基づく動的評価
Authors: Yang Fan,
Abstract要約: AdEvalはデータ汚染が信頼性に与える影響を緩和することを目的とした動的データ評価手法である。複数のデータセットに対する実験結果から、AdEvalはデータ汚染が評価結果に与える影響を効果的に低減することが示された。
参考スコア（独自算出の注目度）: 2.463617251923349
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Large Language Models (LLMs) are pretrained on massive-scale corpora, the issue of data contamination has become increasingly severe, leading to potential overestimation of model performance during evaluation. To address this, we propose AdEval (Alignment-based Dynamic Evaluation), a dynamic data evaluation method aimed at mitigating the impact of data contamination on evaluation reliability. Experimental results on multiple datasets demonstrate that AdEval effectively reduces the impact of data contamination on evaluation outcomes, enhancing both the fairness and reliability of the evaluation process.
Abstract（参考訳）: 大言語モデル(LLM)が大規模コーパスで事前訓練されているため、データ汚染の問題はますます深刻化しており、評価中のモデル性能の過大評価につながる可能性がある。そこで本稿では,データ汚染が信頼性に与える影響を緩和する動的データ評価手法であるAdEvalを提案する。複数のデータセットに対する実験結果から、AdEvalはデータ汚染が評価結果に与える影響を効果的に低減し、評価プロセスの公平性と信頼性を向上することを示した。

関連論文リスト

Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。非微分不可能な指標に適した影響スコア推定法を導出する。
論文参考訳（メタデータ） (2025-02-02T23:20:16Z)
How Contaminated Is Your Benchmark? Quantifying Dataset Leakage in Large Language Models with Kernel Divergence [23.019102917957152]
データセットはトレーニング前のコーパスと重複し、パフォーマンスメトリクスを膨らませ、モデル評価の信頼性を損なう。我々は,サンプル埋め込みのカーネル類似度行列間のばらつきを計算し,データセット汚染を定量化する新しい手法であるKernel Divergence Score (KDS)を提案する。 KDSは汚染レベルとほぼ完璧な相関を示し、既存のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-02T05:50:39Z)
Testing and Improving the Robustness of Amortized Bayesian Inference for Cognitive Models [0.5223954072121659]
汚染物質観測とアウトリーチは、認知モデルのパラメータを推定する際にしばしば問題を引き起こす。本研究では,アモルタイズされたベイズ推定を用いたパラメータ推定のロバスト性を検証・改善する。提案手法は実装が簡単で実用的であり,外乱検出や除去が困難な分野に適用可能である。
論文参考訳（メタデータ） (2024-12-29T21:22:24Z)
Integrating Dynamic Correlation Shifts and Weighted Benchmarking in Extreme Value Analysis [1.8641315013048299]
本稿では、EVDBM(Extreme Value Dynamic Benchmarking Method)を導入することにより、EVA(Extreme Value Analysis)に対する革新的なアプローチを提案する。 EVDBMは極端な事象を検出するために極端な値理論を統合し、新しいDISC(Dynamic Identification of Significant correlation)-Thresholdingアルゴリズムと結合している。 EVDBMの柔軟性は、意思決定の感度が不可欠である他のセクターの幅広い応用の可能性を示している。
論文参考訳（メタデータ） (2024-11-19T21:00:39Z)
Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。 AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文参考訳（メタデータ） (2024-05-23T14:48:15Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。 FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文参考訳（メタデータ） (2024-04-09T04:17:51Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。 1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文参考訳（メタデータ） (2024-02-19T07:15:59Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
GMValuator: Similarity-based Data Valuation for Generative Models [41.76259565672285]
生成モデル評価器(GMValuator, Generative Model Valuator, GMValuator, GMValuator)は、画像生成タスクにデータバリュエーションを提供するための、トレーニング不要で、モデルに依存しない最初のアプローチである。 GMValuatorは、その有効性を示すために、ベンチマークと高解像度データセットで広範囲に評価されている。
論文参考訳（メタデータ） (2023-04-21T02:02:02Z)
Statistical Dataset Evaluation: Reliability, Difficulty, and Validity [18.36931975072938]
自動データセット品質評価のためのモデルに依存しないデータセット評価フレームワークを提案する。我々は、データセットの統計的性質を求め、信頼性、難易度、妥当性の3つの基本的な次元に対処する。
論文参考訳（メタデータ） (2022-12-19T06:55:42Z)
Evaluation of Synthetic Datasets for Conversational Recommender Systems [0.0]
堅牢な評価フレームワークがないことは長年の問題だった。ダウンストリームアプリケーションでは,トレーニングデータの質が重要なので,その質を評価する指標を開発することが重要である。本稿では,生成モデルが生成したデータセットを評価するために,多面的アプローチを採用するフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-12T18:53:10Z)
Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文参考訳（メタデータ） (2022-10-17T05:40:13Z)
Robust Trajectory Prediction against Adversarial Attacks [84.10405251683713]
ディープニューラルネットワーク(DNN)を用いた軌道予測は、自律運転システムにおいて不可欠な要素である。これらの手法は敵の攻撃に対して脆弱であり、衝突などの重大な結果をもたらす。本研究では,敵対的攻撃に対する軌道予測モデルを保護するための2つの重要な要素を同定する。
論文参考訳（メタデータ） (2022-07-29T22:35:05Z)
Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。動的パーソナライズされた価格設定などの問題の因果構造を形式化する。本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文参考訳（メタデータ） (2021-10-19T16:15:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。