論文の概要: VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation
- arxiv url: http://arxiv.org/abs/2406.17681v2
- Date: Wed, 26 Jun 2024 15:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 12:30:50.184834
- Title: VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation
- Title(参考訳): VarBench: 動的可変摂動によるロバスト言語モデルのベンチマーク
- Authors: Kun Qian, Shunji Wan, Claudia Tang, Youzhi Wang, Xuanming Zhang, Maximillian Chen, Zhou Yu,
- Abstract要約: 本稿では,ベンチマークをバリビライズし,動的に言語モデルを評価することを提案する。
具体的には、各テストケースから変数を抽出し、各変数の値範囲を定義する。
それぞれの評価のために、これらの値から新しい値をサンプリングし、ユニークなテストケースを作成します。
- 参考スコア(独自算出の注目度): 16.889939234103153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models achieve impressive scores on traditional benchmarks, an increasing number of researchers are becoming concerned about benchmark data leakage during pre-training, commonly known as the data contamination problem. To ensure fair evaluation, recent benchmarks release only the training and validation sets, keeping the test set labels closed-source. They require anyone wishing to evaluate his language model to submit the model's predictions for centralized processing and then publish the model's result on their leaderboard. However, this submission process is inefficient and prevents effective error analysis. To address this issue, we propose to variabilize benchmarks and evaluate language models dynamically. Specifically, we extract variables from each test case and define a value range for each variable. For each evaluation, we sample new values from these value ranges to create unique test cases, thus ensuring a fresh evaluation each time. We applied this variable perturbation method to four datasets: GSM8K, ARC, CommonsenseQA, and TruthfulQA, which cover mathematical generation and multiple-choice tasks. Our experimental results demonstrate that this approach provides a more accurate assessment of the true capabilities of language models, effectively mitigating the contamination problem.
- Abstract(参考訳): 大規模な言語モデルが従来のベンチマークで印象的なスコアを得るにつれ、データ汚染問題として知られる事前トレーニング中にベンチマークデータの漏洩を懸念する研究者が増えている。
公平な評価を確保するため、最近のベンチマークでは、トレーニングセットと検証セットのみをリリースし、テストセットラベルをクローズドソースに保つ。
彼らは、彼の言語モデルを評価して、集中処理のためのモデルの予測を提出し、モデルの結果を彼らのリーダーボードにパブリッシュするために、誰でも要求する。
しかし、このプロセスは非効率であり、効果的なエラー解析を妨げている。
この問題に対処するために,ベンチマークを可変化し,動的に言語モデルを評価することを提案する。
具体的には、各テストケースから変数を抽出し、各変数の値範囲を定義する。
それぞれの評価のために、これらの値から新しい値をサンプリングし、ユニークなテストケースを作成します。
この変数摂動法を,GSM8K,ARC,CommonsenseQA,TruthfulQAの4つのデータセットに適用した。
実験の結果,本手法は言語モデルの真の性能をより正確に評価し,汚染問題を効果的に軽減することを示した。
関連論文リスト
- Evaluating language models as risk scores [23.779329697527054]
我々は,予測不可能なタスクのリスクスコアとして,言語モデルの利用に焦点をあてる。
大規模言語モデルを用いてリスクスコアを体系的に生成するソフトウェアパッケージであるフォークテキストを導入する。
近年の16大言語モデルに関する実証的な知見を網羅して,民話の有用性を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:13:37Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - LatestEval: Addressing Data Contamination in Language Model Evaluation
through Dynamic and Time-Sensitive Test Construction [21.553915781660905]
LatestEvalは、最新のテキストを活用して、非汚染読影理解評価を作成する自動手法である。
これは、最近のタイムウインドウで公開されたテキストのみを使用することでデータ汚染を回避し、事前訓練された言語モデルのトレーニングコーパスと重複しないようにする。
実験の結果,従来のベンチマークとは対照的に,言語モデルは LatestEval 上で無視可能な記憶行動を示すことがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:16:43Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Predicting the Performance of Multilingual NLP Models [16.250791929966685]
本稿では,特定のタスクがテストセットを持つ言語上で,既存のモデルの性能スコアを利用する言語間でのモデル評価のための代替ソリューションを提案する。
我々はこれらの性能スコアの予測器を訓練し、この予測器を用いて異なる評価設定でモデルの性能を予測する。
提案手法は,既存の言語群に対する評価のギャップを埋めるのに有効であるが,未知の言語に一般化したい場合,さらなる改善が必要である可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-17T17:36:53Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。