論文の概要: Efficiently Ranking Software Variants with Minimal Benchmarks
- arxiv url: http://arxiv.org/abs/2509.06716v1
- Date: Mon, 08 Sep 2025 14:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.183334
- Title: Efficiently Ranking Software Variants with Minimal Benchmarks
- Title(参考訳): 最小ベンチマークでソフトウェア変数を効率よくランク付けする
- Authors: Théo Matricon, Mathieu Acher, Helge Spieker, Arnaud Gotlieb,
- Abstract要約: テストスイート最適化手法を用いて、安定したランキングを維持しながらベンチマークを削減できる新しい手法を提案する。
つまり、すべてのテストで変種と同じランキングを維持しながら、ベンチマークからインスタンスを削除します。
BISection Smpling(BISection Smpling, BISS)は, 最重要試験を戦略的に保持し, 新規な分別・対数法を適用して, 関連試験を効率的にサンプリングする手法である。
- 参考スコア(独自算出の注目度): 7.542554018860094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarking is a common practice in software engineering to assess the qualities and performance of software variants, coming from multiple competing systems or from configurations of the same system. Benchmarks are used notably to compare and understand variant performance, fine-tune software, detect regressions, or design new software systems. The execution of benchmarks to get a complete picture of software variants is highly costly in terms of computational resources and time. In this paper, we propose a novel approach for reducing benchmarks while maintaining stable rankings, using test suite optimization techniques. That is, we remove instances from the benchmarks while trying to keep the same rankings of the variants on all tests. Our method, BISection Sampling, BISS, strategically retains the most critical tests and applies a novel divide-and-conquer approach to efficiently sample among relevant remaining tests. We experiment with datasets and use cases from LLM leaderboards, SAT competitions, and configurable systems for performance modeling. Our results show that our method outperforms baselines even when operating on a subset of variants. Using BISS, we reduce the computational cost of the benchmarks on average to 44% and on more than half the benchmarks by up to 99% without loss in ranking stability.
- Abstract(参考訳): ベンチマークはソフトウェア工学において、複数の競合するシステムや同じシステムの構成から来るソフトウェア変種の品質と性能を評価するための一般的なプラクティスである。
ベンチマークは、異種性能の比較や理解、微調整ソフトウェア、回帰検出、新しいソフトウェアシステムの設計などに使われる。
ソフトウェア変異の完全な図を得るためのベンチマークの実行は、計算資源と時間の観点から非常にコストがかかる。
本稿では,テストスイート最適化手法を用いて,安定したランキングを維持しながらベンチマークを削減できる新しい手法を提案する。
つまり、すべてのテストで変種と同じランキングを維持しながら、ベンチマークからインスタンスを削除します。
BISection Smpling(BISection Smpling, BISS)は, 最重要試験を戦略的に保持し, 新規な分別・対数法を適用して, 関連試験を効率的にサンプリングする手法である。
LLMリーダーボード、SATコンペティション、パフォーマンスモデリングのための設定可能なシステムからデータセットとユースケースを実験する。
提案手法は, 変種サブセット上で動作しても, ベースラインよりも優れていることを示す。
BISSを用いて,ベンチマークの計算コストを平均44%,ベンチマークの半分以上を最大99%削減する。
関連論文リスト
- Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
本稿では LLM PTQ のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-18T07:35:35Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - Analyzing the Impact of Undersampling on the Benchmarking and
Configuration of Evolutionary Algorithms [3.967483941966979]
限られたデータに基づいて意思決定を行う場合、注意が必要であることを示す。
統計的レースを用いてラン数を動的に調整しても,20%以上の性能損失の例を示す。
論文 参考訳(メタデータ) (2022-04-20T09:53:59Z) - On the Assessment of Benchmark Suites for Algorithm Comparison [7.501426386641256]
BBOBスイートのほとんどのベンチマーク関数は、高い難易度(最適化アルゴリズムと比較)と低い差別性を有することを示す。
我々は、ベンチマークスイートの設計を改善することを含む、ベンチマークにおけるIRTの潜在的な使用について論じる。
論文 参考訳(メタデータ) (2021-04-15T11:20:11Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。