Fugu-MT 論文翻訳(概要): Efficiently Ranking Software Variants with Minimal Benchmarks

論文の概要: Efficiently Ranking Software Variants with Minimal Benchmarks

arxiv url: http://arxiv.org/abs/2509.06716v1
Date: Mon, 08 Sep 2025 14:11:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-09 14:07:04.183334
Title: Efficiently Ranking Software Variants with Minimal Benchmarks
Title（参考訳）: 最小ベンチマークでソフトウェア変数を効率よくランク付けする
Authors: Théo Matricon, Mathieu Acher, Helge Spieker, Arnaud Gotlieb,
Abstract要約: テストスイート最適化手法を用いて、安定したランキングを維持しながらベンチマークを削減できる新しい手法を提案する。つまり、すべてのテストで変種と同じランキングを維持しながら、ベンチマークからインスタンスを削除します。 BISection Smpling(BISection Smpling, BISS)は, 最重要試験を戦略的に保持し, 新規な分別・対数法を適用して, 関連試験を効率的にサンプリングする手法である。
参考スコア（独自算出の注目度）: 7.542554018860094
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Benchmarking is a common practice in software engineering to assess the qualities and performance of software variants, coming from multiple competing systems or from configurations of the same system. Benchmarks are used notably to compare and understand variant performance, fine-tune software, detect regressions, or design new software systems. The execution of benchmarks to get a complete picture of software variants is highly costly in terms of computational resources and time. In this paper, we propose a novel approach for reducing benchmarks while maintaining stable rankings, using test suite optimization techniques. That is, we remove instances from the benchmarks while trying to keep the same rankings of the variants on all tests. Our method, BISection Sampling, BISS, strategically retains the most critical tests and applies a novel divide-and-conquer approach to efficiently sample among relevant remaining tests. We experiment with datasets and use cases from LLM leaderboards, SAT competitions, and configurable systems for performance modeling. Our results show that our method outperforms baselines even when operating on a subset of variants. Using BISS, we reduce the computational cost of the benchmarks on average to 44% and on more than half the benchmarks by up to 99% without loss in ranking stability.
Abstract（参考訳）: ベンチマークはソフトウェア工学において、複数の競合するシステムや同じシステムの構成から来るソフトウェア変種の品質と性能を評価するための一般的なプラクティスである。ベンチマークは、異種性能の比較や理解、微調整ソフトウェア、回帰検出、新しいソフトウェアシステムの設計などに使われる。ソフトウェア変異の完全な図を得るためのベンチマークの実行は、計算資源と時間の観点から非常にコストがかかる。本稿では,テストスイート最適化手法を用いて,安定したランキングを維持しながらベンチマークを削減できる新しい手法を提案する。つまり、すべてのテストで変種と同じランキングを維持しながら、ベンチマークからインスタンスを削除します。 BISection Smpling(BISection Smpling, BISS)は, 最重要試験を戦略的に保持し, 新規な分別・対数法を適用して, 関連試験を効率的にサンプリングする手法である。 LLMリーダーボード、SATコンペティション、パフォーマンスモデリングのための設定可能なシステムからデータセットとユースケースを実験する。提案手法は, 変種サブセット上で動作しても, ベースラインよりも優れていることを示す。 BISSを用いて,ベンチマークの計算コストを平均44%,ベンチマークの半分以上を最大99%削減する。

関連論文リスト

When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation [80.66788281323414]
主要モデル開発者のテクニカルレポートから選択した60のLarge Language Model (LLM)ベンチマークのベンチマーク飽和を分析した。分析の結果、ベンチマークのほぼ半数が飽和しており、ベンチマークの年齢とともに上昇していることがわかった。専門家によるベンチマークは、クラウドソースのベンチマークよりも飽和に抵抗する。
論文参考訳（メタデータ） (2026-02-18T16:51:37Z)
Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts [49.99400612296149]
強力な視覚的理解なしに、モデルが多くのベンチマークを達成できることがわかりました。これは視覚的な入力を意図した視覚中心のベンチマークでは特に問題となる。ベンチマーク設計には診断原則を採用しており、もしベンチマークをゲーム化できれば、それをゲーム化します。
論文参考訳（メタデータ） (2025-11-06T18:43:21Z)
Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。 HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文参考訳（メタデータ） (2025-10-12T05:38:10Z)
Benchmark Profiling: Mechanistic Diagnosis of LLM Benchmarks [34.09939383415074]
ベンチマークプロファイリングは、ベンチマークのパフォーマンスを10の認知的基盤を持つ能力に分解する。パフォーマンス向上がユーザ認識能力に必ずしも変換されない理由を説明する。
論文参考訳（メタデータ） (2025-09-23T15:32:47Z)
Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文参考訳（メタデータ） (2025-09-14T05:49:42Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。本稿では LLM PTQ のための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-02-18T07:35:35Z)
BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文参考訳（メタデータ） (2024-11-20T02:38:24Z)
Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。 1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文参考訳（メタデータ） (2024-02-19T07:15:59Z)
Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。 HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-22T17:59:30Z)
Analyzing the Impact of Undersampling on the Benchmarking and Configuration of Evolutionary Algorithms [3.967483941966979]
限られたデータに基づいて意思決定を行う場合、注意が必要であることを示す。統計的レースを用いてラン数を動的に調整しても,20%以上の性能損失の例を示す。
論文参考訳（メタデータ） (2022-04-20T09:53:59Z)
On the Assessment of Benchmark Suites for Algorithm Comparison [7.501426386641256]
BBOBスイートのほとんどのベンチマーク関数は、高い難易度(最適化アルゴリズムと比較)と低い差別性を有することを示す。我々は、ベンチマークスイートの設計を改善することを含む、ベンチマークにおけるIRTの潜在的な使用について論じる。
論文参考訳（メタデータ） (2021-04-15T11:20:11Z)
Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-15T10:08:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。