論文の概要: Is Your Benchmark (Still) Useful? Dynamic Benchmarking for Code Language Models
- arxiv url: http://arxiv.org/abs/2503.06643v1
- Date: Sun, 09 Mar 2025 14:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:12.456469
- Title: Is Your Benchmark (Still) Useful? Dynamic Benchmarking for Code Language Models
- Title(参考訳): あなたのベンチマークは役に立つか? 動的ベンチマークはコード言語モデルに役立つか?
- Authors: Batu Guan, Xiao Wu, Yuanyuan Yuan, Shaohua Li,
- Abstract要約: この課題に対処するために、新しいソリューションである動的ベンチマークフレームワークを導入します。
コード理解や推論のベンチマークが与えられた場合、我々のフレームワークは動的に各入力、すなわちプログラムを様々な意味保存突然変異で変換し、構文的に新しく、意味的に同一のベンチマークを構築する。
- 参考スコア(独自算出の注目度): 19.06241383209599
- License:
- Abstract: In this paper, we tackle a critical challenge in model evaluation: how to keep code benchmarks useful when models might have already seen them during training. We introduce a novel solution, dynamic benchmarking framework, to address this challenge. Given a code understanding or reasoning benchmark, our framework dynamically transforms each input, i.e., programs, with various semantic-preserving mutations to build a syntactically new while semantically identical benchmark. We evaluated ten popular language models on our dynamic benchmarks. Our evaluation reveals several interesting or surprising findings: (1) all models perform significantly worse than before, (2) the ranking between some models shifts dramatically, and (3) our dynamic benchmarks can resist against the data contamination problem.
- Abstract(参考訳): 本稿では,モデル評価において重要な課題である,トレーニング中にすでに見ていた場合のコードベンチマークの有効性を維持する方法について述べる。
この課題に対処するために、新しいソリューションである動的ベンチマークフレームワークを導入します。
コード理解や推論のベンチマークが与えられた場合、我々のフレームワークは動的に各入力、すなわちプログラムを様々な意味保存突然変異で変換し、構文的に新しく、意味的に同一のベンチマークを構築する。
動的ベンチマークで10の人気のある言語モデルを評価した。
評価の結果,(1)全てのモデルが従来よりも大幅に悪化し,(2)いくつかのモデル間のランクが劇的に変化し,(3)動的ベンチマークがデータ汚染問題に抵抗できることがわかった。
関連論文リスト
- Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation [16.889939234103153]
本稿では,ベンチマークをバリビライズし,動的に言語モデルを評価することを提案する。
具体的には、各テストケースから変数を抽出し、各変数の値範囲を定義する。
それぞれの評価のために、これらの値から新しい値をサンプリングし、ユニークなテストケースを作成します。
論文 参考訳(メタデータ) (2024-06-25T16:13:53Z) - Revisiting a Pain in the Neck: Semantic Phrase Processing Benchmark for Language Models [10.482557806309174]
セマンティックフレーズ処理タスクにおける言語モデル(LM)のテストを可能にする総合評価スイートであるLexBenchを紹介する。
我々のベンチマークにより、モデルアーキテクチャにおける15のLMの性能と、分類、抽出、解釈タスクにおけるパラメータスケールを評価する。
我々のベンチマーク結果は,意味的フレーズ理解におけるLMの汎用的能力の向上を目的とした今後の研究に役立つだろう。
論文 参考訳(メタデータ) (2024-05-05T09:20:38Z) - The Fault in our Stars: Quality Assessment of Code Generation Benchmarks [0.5137309756089941]
我々は、異なるコード生成モデルの性能を比較するために使用されるベンチマークの中で、プロンプトの品質について、第一種研究を行う。
9つのコード生成ベンチマークから3,566のプロンプトを分析し、その中の品質問題を特定した。
論文 参考訳(メタデータ) (2024-04-15T22:02:58Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - A Theory of Dynamic Benchmarks [24.170405353348592]
動的ベンチマークの利点と実用的限界について検討する。
これらの結果は、経験的作業における観察されたボトルネックに関する理論的基礎と因果的説明を提供する。
論文 参考訳(メタデータ) (2022-10-06T18:56:46Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Dynabench: Rethinking Benchmarking in NLP [82.26699038776812]
動的データセットの作成とモデルベンチマークのためのオープンソースプラットフォームであるdynabenchを紹介する。
DynabenchはWebブラウザで動作し、ループ内の人間とモデルデータセットの作成をサポートする。
私たちは、これらの概念を図示し、プラットフォームの約束を強調する4つの初期のNLPタスクを報告します。
論文 参考訳(メタデータ) (2021-04-07T17:49:17Z) - Do Question Answering Modeling Improvements Hold Across Benchmarks? [84.48867898593052]
20種類の多種多様なモデリング手法を用いて32のQAベンチマークの一致を計測する。
何年にもわたってコミュニティは少数のベンチマークに力を入れてきたが、研究対象のモデリングの改善は広く続いている。
論文 参考訳(メタデータ) (2021-02-01T18:55:38Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。