論文の概要: The Case for Multi-Version Experimental Evaluation (MVEE)
- arxiv url: http://arxiv.org/abs/2603.27691v1
- Date: Sun, 29 Mar 2026 13:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.072668
- Title: The Case for Multi-Version Experimental Evaluation (MVEE)
- Title(参考訳): MVEE(Multi-Version Experimental Evaluation)の1例
- Authors: Simon Jörz, Felix Schuhknecht,
- Abstract要約: マルチバージョン実験評価(MVEE)の概念を提案する。
MVEEは、"ビルド異常"が発生するためのアセンブリコードレベルのその後のビルドを自動的に、透過的に分析する。
その結果、各手法の観察されたすべてのバージョンを実験的評価に含めることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the database community, we typically evaluate new methods based on experimental results, which we produce by integrating the proposed method along with a set of baselines in a single benchmarking codebase and measuring the individual runtimes. If we are unhappy with the performance of our method, we gradually improve it while repeatedly comparing to the baselines, until we outperform them. While this seems like a reasonable approach, it makes one delicate assumption: We assume that across the optimization workflow, there exists only a single compiled version of each baseline to compare to. However, we learned the hard way that in practice, even though the source code remains untouched, general purpose compilers might still generate highly different compiled code across builds, caused by seemingly unrelated changes in other parts of the codebase, leading to flawed comparisons and evaluations. To tackle this problem, we propose the concept of Multi-Version Experimental Evaluation (MVEE). MVEE automatically and transparently analyzes subsequent builds on the assembly code level for occurring "build anomalies" and materializes them as new versions of the methods. As a consequence, all observed versions of the respective methods can be included in the experimental evaluation, highly increasing its quality and overall expressiveness.
- Abstract(参考訳): データベースコミュニティでは,実験結果に基づく新しい手法の評価が一般的であり,提案手法とベースラインのセットを1つのベンチマークコードベースに統合し,個々のランタイムを測定する。
提案手法の性能に不満を抱いた場合,性能が向上するまで,ベースラインと繰り返し比較しながら徐々に改善する。
最適化ワークフロー全体において、比較するベースラインの1つのコンパイルされたバージョンしか存在しないと仮定します。
しかし、実際にはソースコードがまだ変更されていないとしても、一般的な目的のコンパイラはビルド全体で非常に異なるコンパイルコードを生成する可能性があるということを学びました。
そこで本研究では,MVEE(Multi-Version Experimental Evaluation)の概念を提案する。
MVEEは、"ビルド異常"が発生するためのアセンブリコードレベルのその後のビルドを自動的に透過的に分析し、それらを新しいバージョンのメソッドとして実現します。
その結果、各手法の観察されたすべてのバージョンを実験評価に含めることができ、その品質と全体的な表現性が高くなった。
関連論文リスト
- AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Realistic Evaluation of Model Merging for Compositional Generalization [45.68423348264746]
我々は,異なるマージ手法の相対的メリットを,共有実験環境で評価することによって評価する。
具体的には、画像分類、画像生成、自然言語処理における特徴の合成一般化にマージを用いることに焦点をあてる。
我々は、異なるマージ手法の計算コストと、マージされるモデルの数をスケールする際のそれらの性能を計測する。
論文 参考訳(メタデータ) (2024-09-26T21:44:20Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。