Fugu-MT 論文翻訳(概要): Benchmarking Benchmark Leakage in Large Language Models

論文の概要: Benchmarking Benchmark Leakage in Large Language Models

arxiv url: http://arxiv.org/abs/2404.18824v1
Date: Mon, 29 Apr 2024 16:05:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 12:58:45.711372
Title: Benchmarking Benchmark Leakage in Large Language Models
Title（参考訳）: 大規模言語モデルにおけるベンチマークリークのベンチマーク
Authors: Ruijie Xu, Zengzhi Wang, Run-Ze Fan, Pengfei Liu,
Abstract要約: 本稿では,モデル予測精度をベンチマークで評価する2つの単純かつスケーラブルな指標であるPerplexityとN-gramの精度を利用した検出パイプラインを提案する。テストセットの誤用さえも、トレーニングのかなりの例を明らかにし、潜在的に不公平な比較を行う。ベンチマーク利用の明確なドキュメンテーションを促進するために,ベンチマーク透明性カードを提案する。
参考スコア（独自算出の注目度）: 24.015208839742343
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Amid the expanding use of pre-training data, the phenomenon of benchmark dataset leakage has become increasingly prominent, exacerbated by opaque training processes and the often undisclosed inclusion of supervised data in contemporary Large Language Models (LLMs). This issue skews benchmark effectiveness and fosters potentially unfair comparisons, impeding the field's healthy development. To address this, we introduce a detection pipeline utilizing Perplexity and N-gram accuracy, two simple and scalable metrics that gauge a model's prediction precision on benchmark, to identify potential data leakages. By analyzing 31 LLMs under the context of mathematical reasoning, we reveal substantial instances of training even test set misuse, resulting in potentially unfair comparisons. These findings prompt us to offer several recommendations regarding model documentation, benchmark setup, and future evaluations. Notably, we propose the "Benchmark Transparency Card" to encourage clear documentation of benchmark utilization, promoting transparency and healthy developments of LLMs. we have made our leaderboard, pipeline implementation, and model predictions publicly available, fostering future research.
Abstract（参考訳）: 事前トレーニングデータの利用が拡大する中、ベンチマークデータセットのリーク現象は、不透明なトレーニングプロセスや、現代Large Language Models (LLMs) に教師付きデータを含めることによって悪化し、ますます顕著になっている。この問題は、ベンチマークの有効性を歪め、潜在的に不公平な比較を奨励し、この分野の健全な発展を妨げる。そこで本研究では,PerplexityとN-gramの精度を利用した検出パイプラインを提案する。数学的推論の文脈で31個のLSMを解析することにより、テストセットの誤用さえもかなりの訓練例を明らかにし、潜在的に不公平な比較を行う。これらの結果から,モデルドキュメンテーションやベンチマーク設定,今後の評価について,いくつかの推奨事項を提供することができた。特に,ベンチマーク利用の明確なドキュメンテーション,透明性の促進,LCMの健全な開発を促進するために,ベンチマーク透明性カードを提案する。リーダーボード、パイプライン実装、モデル予測を公開し、将来の研究を奨励しました。

関連論文リスト

Aligning Language Model Benchmarks with Pairwise Preferences [15.427340427081843]
ベンチマークアライメントを導入し、モデルパフォーマンスに関する限られた量の情報を使用して、オフラインベンチマークを自動的に更新します。次に、ベンチマーク問題に対する優先順の重み付けを学習するBenchAlignを提案する。我々の実験は、一致したベンチマークが、異なるサイズであっても、人間の好みのモデルに従って、正確に、見つからないモデルをランク付けできることを示している。
論文参考訳（メタデータ） (2026-02-02T23:11:09Z)
How NOT to benchmark your SITE metric: Beyond Static Leaderboards and Towards Realistic Evaluation [11.33816414982401]
伝達可能性推定メトリクスは、与えられた目標タスクに対して高い性能の事前訓練されたモデルを見つけるために使用される。このようなメトリクスの開発に対する関心が高まっているにもかかわらず、彼らの進捗を測るベンチマークは、ほとんど検討されていない。これらの指標が評価されるベンチマークには、根本的な欠陥がある、と我々は主張する。
論文参考訳（メタデータ） (2025-10-07T20:38:12Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics [13.049841309304922]
本稿では,OIBenchについて紹介する。OIBenchは高品質でプライベートで,250個の厳格なオリジナル問題からなる,オリンピックレベルの情報データセットである。ベンチマークの構築手法を詳述し、様々なプログラミングパラダイムや複雑さの包括的評価を確実にする。我々は,よりきめ細かな効率解析のための時間/空間補完曲線を提案し,直接人-モデル比較を可能にする。
論文参考訳（メタデータ） (2025-06-12T08:33:38Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文参考訳（メタデータ） (2024-11-07T22:36:19Z)
PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。 LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文参考訳（メタデータ） (2024-06-26T13:12:40Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。 GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文参考訳（メタデータ） (2023-10-16T17:51:29Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
Temporal Knowledge Graph Forecasting Without Knowledge Using In-Context Learning [23.971206470486468]
本稿では,関連する歴史的事実をプロンプトに変換し,トークン確率を用いてランキング予測を生成する枠組みを提案する。驚いたことに、LLMは最先端のTKGモデルと同等に動作している。また,エンティティ/リレーション名の代わりに数値指標を用いると,性能に悪影響を及ぼさないことも判明した。
論文参考訳（メタデータ） (2023-05-17T23:50:28Z)
Can LMs Generalize to Future Data? An Empirical Analysis on Text Summarization [50.20034493626049]
最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重複する。要約モデルに格納されたパラメトリック知識は、将来のデータに対する生成した要約の忠実度に大きく影響することを示す。
論文参考訳（メタデータ） (2023-05-03T08:08:07Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)
SynBench: Task-Agnostic Benchmarking of Pretrained Representations using Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文参考訳（メタデータ） (2022-10-06T15:25:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。