論文の概要: Bencher: Simple and Reproducible Benchmarking for Black-Box Optimization
- arxiv url: http://arxiv.org/abs/2505.21321v1
- Date: Tue, 27 May 2025 15:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.749874
- Title: Bencher: Simple and Reproducible Benchmarking for Black-Box Optimization
- Title(参考訳): Bencher: Black-Box最適化のためのシンプルで再現可能なベンチマーク
- Authors: Leonard Papenmeier, Luigi Nardi,
- Abstract要約: Bencherはブラックボックス最適化のためのモジュラーベンチマークフレームワークである。
各ベンチマークは、独自の仮想Python環境で分離され、統一されたバージョンに依存しないリモートプロシージャコール(RPC)インターフェースを介してアクセスされる。
BencherはローカルまたはリモートでDocker経由で、あるいはSingularity経由で高性能なコンピューティングクラスタにデプロイできる。
- 参考スコア(独自算出の注目度): 5.703483582960509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Bencher, a modular benchmarking framework for black-box optimization that fundamentally decouples benchmark execution from optimization logic. Unlike prior suites that focus on combining many benchmarks in a single project, Bencher introduces a clean abstraction boundary: each benchmark is isolated in its own virtual Python environment and accessed via a unified, version-agnostic remote procedure call (RPC) interface. This design eliminates dependency conflicts and simplifies the integration of diverse, real-world benchmarks, which often have complex and conflicting software requirements. Bencher can be deployed locally or remotely via Docker or on high-performance computing (HPC) clusters via Singularity, providing a containerized, reproducible runtime for any benchmark. Its lightweight client requires minimal setup and supports drop-in evaluation of 80 benchmarks across continuous, categorical, and binary domains.
- Abstract(参考訳): 我々は、最適化ロジックからベンチマーク実行を根本的に分離するブラックボックス最適化のためのモジュール型ベンチマークフレームワークであるBencherを紹介する。
各ベンチマークは、独自の仮想Python環境で分離され、統合されたバージョンに依存しないリモートプロシージャコール(RPC)インターフェースを介してアクセスされる。
この設計は依存関係の衝突を排除し、複雑で矛盾するソフトウェア要件を持つ多種多様な実世界のベンチマークの統合を単純化する。
BencherはローカルまたはリモートでDocker経由で、あるいはSingularity経由でハイパフォーマンスコンピューティング(HPC)クラスタにデプロイすることができる。
軽量クライアントは最小限のセットアップを必要とし、連続、分類、バイナリドメインにわたる80ベンチマークのドロップイン評価をサポートする。
関連論文リスト
- Employing Continuous Integration inspired workflows for benchmarking of scientific software -- a use case on numerical cut cell quadrature [0.3387808070669509]
本稿では、確立された継続的インテグレーションツールとプラクティスを利用して、ベンチマークの実行とレポートの自動化を実現する、実証済みのアプローチを提案する。
我々のユースケースは、任意の領域上の数値積分(四分法)であり、2Dまたは3Dで暗黙的にあるいはパラメトリックに定義された曲線や曲面によって境界づけられる。
論文 参考訳(メタデータ) (2025-03-21T14:42:24Z) - EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (2025-03-18T17:19:12Z) - SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文 参考訳(メタデータ) (2024-10-04T14:52:18Z) - RBoard: A Unified Platform for Reproducible and Reusable Recommender System Benchmarks [0.4312340306206883]
RBoardは推奨システムのベンチマークのための新しいフレームワークである。
CTR予測やTop-Nレコメンデーションなど、さまざまなレコメンデーションタスクをベンチマークするための総合的なプラットフォームを提供する。
このフレームワークは各タスク内の複数のデータセットにまたがるアルゴリズムを評価し、総合的なパフォーマンス評価の結果を集約する。
論文 参考訳(メタデータ) (2024-09-09T11:35:35Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - A Multi-objective Optimization Benchmark Test Suite for Real-time Semantic Segmentation [22.707825213534125]
ハードウェア対応ニューラルアーキテクチャ(HW-NAS)タスクは、ブラックボックス多目的最適化問題(MOP)として扱うことができる。
リアルタイムセマンティックセグメンテーションのためのHW-NASのタスクを標準のMOPに変換するために,最適化されたストリームラインを導入する。
本稿では,Cityscapesデータセットから得られた15のMOPであるCitySeg/MOPというベンチマークテストスイートを提案する。
論文 参考訳(メタデータ) (2024-04-25T00:30:03Z) - AIBench: An Agile Domain-specific Benchmarking Methodology and an AI
Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。
我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。
最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文 参考訳(メタデータ) (2020-02-17T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。