論文の概要: Benchmarking that Matters: Rethinking Benchmarking for Practical Impact
- arxiv url: http://arxiv.org/abs/2511.12264v1
- Date: Sat, 15 Nov 2025 15:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.784839
- Title: Benchmarking that Matters: Rethinking Benchmarking for Practical Impact
- Title(参考訳): 重要なベンチマーク:実践的なインパクトのためにベンチマークを再考する
- Authors: Anna V. Kononova, Niki van Stein, Olaf Mersmann, Thomas Bäck, Thomas Bartz-Beielstein, Tobias Glasmachers, Michael Hellwig, Sebastian Krey, Jakub Kůdela, Boris Naujoks, Leonard Papenmeier, Elena Raponi, Quentin Renau, Jeroen Rook, Lennart Schäpermeier, Diederick Vermetten, Daniela Zaharie,
- Abstract要約: 本稿では,実世界のベンチマーク,実践者が利用できる機能空間,コミュニティが維持するパフォーマンスデータベースを中心にしたビジョンを提案する。
現実の洞察とともに進化し、科学的理解と産業的利用の両方をサポートする生きたベンチマークエコシステム。
- 参考スコア(独自算出の注目度): 2.952553461344481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarking has driven scientific progress in Evolutionary Computation, yet current practices fall short of real-world needs. Widely used synthetic suites such as BBOB and CEC isolate algorithmic phenomena but poorly reflect the structure, constraints, and information limitations of continuous and mixed-integer optimization problems in practice. This disconnect leads to the misuse of benchmarking suites for competitions, automated algorithm selection, and industrial decision-making, despite these suites being designed for different purposes. We identify key gaps in current benchmarking practices and tooling, including limited availability of real-world-inspired problems, missing high-level features, and challenges in multi-objective and noisy settings. We propose a vision centered on curated real-world-inspired benchmarks, practitioner-accessible feature spaces and community-maintained performance databases. Real progress requires coordinated effort: A living benchmarking ecosystem that evolves with real-world insights and supports both scientific understanding and industrial use.
- Abstract(参考訳): ベンチマークは進化的計算の科学的進歩を導いてきたが、現在のプラクティスは現実世界のニーズに欠けている。
BBOBやCECのような広く使われている合成スイートは、アルゴリズム的な現象を分離するが、実際には連続および混合整数最適化問題の構造、制約、情報制限を十分に反映していない。
この切断は、競争のためのベンチマークスイート、自動アルゴリズムの選択、工業的意思決定の誤用につながるが、これらのスイートは異なる目的のために設計されている。
現在のベンチマークプラクティスとツーリングの主なギャップは、現実世界にインスパイアされた問題の可用性の制限、高レベルの機能の欠如、マルチオブジェクトでノイズの多い設定における課題などです。
本稿では,実世界のベンチマーク,実践者が利用できる機能空間,コミュニティが維持するパフォーマンスデータベースを中心にしたビジョンを提案する。
現実の洞察とともに進化し、科学的理解と産業的利用の両方をサポートする生きたベンチマークエコシステム。
関連論文リスト
- A Benchmark Suite for Multi-Objective Optimization in Battery Thermal Management System Design [0.0]
本研究では, 電池熱管理システム(BTMS)の設計における多目的最適化のためのベンチマークスイートを開発し, 提案する。
このベンチマークスイートの主な目標は、進化アルゴリズムと最適化手法の実用的で関連するテスト基盤を提供することである。
論文 参考訳(メタデータ) (2025-10-29T06:48:22Z) - Metrics and evaluations for computational and sustainable AI efficiency [26.52588349722099]
現在のアプローチでは全体像の提供に失敗し、システムの比較と最適化が難しい。
本稿では,計算および環境メトリクスを統合するAIモデル推論のための統一的再現可能な方法論を提案する。
本フレームワークは, 遅延を系統的に測定し, スループット, エネルギー消費, 位置調整二酸化炭素排出量を計測することにより, 実用的で炭素を意識した評価を行う。
論文 参考訳(メタデータ) (2025-10-18T03:30:15Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Beyond Academic Benchmarks: Critical Analysis and Best Practices for Visual Industrial Anomaly Detection [40.174488947319645]
製造における視覚検査の自動化には,異常検出(AD)が不可欠である。
本稿では,(1)実世界のデータセットの重要性を実証し,実際の生産データを用いたベンチマークを確立すること,(2)実践的応用に有用な指標を用いて,既存のSOTA手法を公平に比較すること,(3)学術と産業のギャップを埋めるための重要な課題と新たな視点を論じることで,この分野の最近の進歩を包括的に分析すること,の3つの主要な貢献を行う。
論文 参考訳(メタデータ) (2025-03-30T14:11:46Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - AExGym: Benchmarks and Environments for Adaptive Experimentation [7.948144726705323]
実世界のデータセットに基づく適応実験のためのベンチマークを提案する。
非定常性、バッチ/遅延フィードバック、複数の成果と目標、外部の妥当性。
論文 参考訳(メタデータ) (2024-08-08T15:32:12Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z) - Mapping global dynamics of benchmark creation and saturation in
artificial intelligence [5.233652342195164]
ベンチマークの作成と飽和のグローバルなダイナミクスのマップを作成します。
コンピュータビジョンと自然言語処理の全領域をカバーする1688ベンチマークのデータをキュレートした。
論文 参考訳(メタデータ) (2022-03-09T09:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。