論文の概要: Bencher: Simple and Reproducible Benchmarking for Black-Box Optimization
- arxiv url: http://arxiv.org/abs/2505.21321v1
- Date: Tue, 27 May 2025 15:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.749874
- Title: Bencher: Simple and Reproducible Benchmarking for Black-Box Optimization
- Title(参考訳): Bencher: Black-Box最適化のためのシンプルで再現可能なベンチマーク
- Authors: Leonard Papenmeier, Luigi Nardi,
- Abstract要約: Bencherはブラックボックス最適化のためのモジュラーベンチマークフレームワークである。
各ベンチマークは、独自の仮想Python環境で分離され、統一されたバージョンに依存しないリモートプロシージャコール(RPC)インターフェースを介してアクセスされる。
BencherはローカルまたはリモートでDocker経由で、あるいはSingularity経由で高性能なコンピューティングクラスタにデプロイできる。
- 参考スコア(独自算出の注目度): 5.703483582960509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Bencher, a modular benchmarking framework for black-box optimization that fundamentally decouples benchmark execution from optimization logic. Unlike prior suites that focus on combining many benchmarks in a single project, Bencher introduces a clean abstraction boundary: each benchmark is isolated in its own virtual Python environment and accessed via a unified, version-agnostic remote procedure call (RPC) interface. This design eliminates dependency conflicts and simplifies the integration of diverse, real-world benchmarks, which often have complex and conflicting software requirements. Bencher can be deployed locally or remotely via Docker or on high-performance computing (HPC) clusters via Singularity, providing a containerized, reproducible runtime for any benchmark. Its lightweight client requires minimal setup and supports drop-in evaluation of 80 benchmarks across continuous, categorical, and binary domains.
- Abstract(参考訳): 我々は、最適化ロジックからベンチマーク実行を根本的に分離するブラックボックス最適化のためのモジュール型ベンチマークフレームワークであるBencherを紹介する。
各ベンチマークは、独自の仮想Python環境で分離され、統合されたバージョンに依存しないリモートプロシージャコール(RPC)インターフェースを介してアクセスされる。
この設計は依存関係の衝突を排除し、複雑で矛盾するソフトウェア要件を持つ多種多様な実世界のベンチマークの統合を単純化する。
BencherはローカルまたはリモートでDocker経由で、あるいはSingularity経由でハイパフォーマンスコンピューティング(HPC)クラスタにデプロイすることができる。
軽量クライアントは最小限のセットアップを必要とし、連続、分類、バイナリドメインにわたる80ベンチマークのドロップイン評価をサポートする。
関連論文リスト
- MultiKernelBench: A Multi-Platform Benchmark for Kernel Generation [17.461533973039064]
MultiKernelBenchは、大規模言語モデル(LLM)を用いたディープラーニングカーネル生成のためのベンチマークである。
14の明確に定義されたカーネルカテゴリにまたがる285のタスクにまたがっており、3つの主要なハードウェアプラットフォームをサポートしている。
課題の難易度, トレーニング露出の少ないプラットフォームへの一般化の低さ, ターゲット型プロンプト戦略の有効性について検討した。
論文 参考訳(メタデータ) (2025-07-20T00:58:33Z) - ConsumerBench: Benchmarking Generative AI Applications on End-User Devices [6.6246058403368595]
クラウドのみの環境からエンドユーザデバイスに移行したGenerative AI(GenAI)アプリケーションは、リソース管理、システム効率、ユーザエクスペリエンスにおいて、新たな課題をもたらしている。
本稿では,エンドユーザーデバイス上で動作するGenAIモデルのシステム効率と応答時間を評価するための総合的なベンチマークフレームワークであるConsumerBenchを提案する。
論文 参考訳(メタデータ) (2025-06-21T01:32:22Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - Employing Continuous Integration inspired workflows for benchmarking of scientific software -- a use case on numerical cut cell quadrature [0.3387808070669509]
本稿では、確立された継続的インテグレーションツールとプラクティスを利用して、ベンチマークの実行とレポートの自動化を実現する、実証済みのアプローチを提案する。
我々のユースケースは、任意の領域上の数値積分(四分法)であり、2Dまたは3Dで暗黙的にあるいはパラメトリックに定義された曲線や曲面によって境界づけられる。
論文 参考訳(メタデータ) (2025-03-21T14:42:24Z) - EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (2025-03-18T17:19:12Z) - SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文 参考訳(メタデータ) (2024-10-04T14:52:18Z) - RBoard: A Unified Platform for Reproducible and Reusable Recommender System Benchmarks [0.4312340306206883]
RBoardは推奨システムのベンチマークのための新しいフレームワークである。
CTR予測やTop-Nレコメンデーションなど、さまざまなレコメンデーションタスクをベンチマークするための総合的なプラットフォームを提供する。
このフレームワークは各タスク内の複数のデータセットにまたがるアルゴリズムを評価し、総合的なパフォーマンス評価の結果を集約する。
論文 参考訳(メタデータ) (2024-09-09T11:35:35Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - A Multi-objective Optimization Benchmark Test Suite for Real-time Semantic Segmentation [22.707825213534125]
ハードウェア対応ニューラルアーキテクチャ(HW-NAS)タスクは、ブラックボックス多目的最適化問題(MOP)として扱うことができる。
リアルタイムセマンティックセグメンテーションのためのHW-NASのタスクを標準のMOPに変換するために,最適化されたストリームラインを導入する。
本稿では,Cityscapesデータセットから得られた15のMOPであるCitySeg/MOPというベンチマークテストスイートを提案する。
論文 参考訳(メタデータ) (2024-04-25T00:30:03Z) - RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything [117.02741621686677]
この研究はリアルタイム多目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を探索する。
インタラクティブセグメンテーション、パノスコープセグメンテーション、ビデオインスタンスセグメンテーションの3つの基本的なサブタスクを含んでいる。
動的畳み込みに基づく新しい動的畳み込み手法であるReal-Time Multi-Purpose SAM(RMP-SAM)を提案する。
効率的なエンコーダと、プロンプト駆動のデコードを実行するための効率的なデカップリングアダプタを含む。
論文 参考訳(メタデータ) (2024-01-18T18:59:30Z) - Dynabench: Rethinking Benchmarking in NLP [82.26699038776812]
動的データセットの作成とモデルベンチマークのためのオープンソースプラットフォームであるdynabenchを紹介する。
DynabenchはWebブラウザで動作し、ループ内の人間とモデルデータセットの作成をサポートする。
私たちは、これらの概念を図示し、プラットフォームの約束を強調する4つの初期のNLPタスクを報告します。
論文 参考訳(メタデータ) (2021-04-07T17:49:17Z) - AIBench: An Agile Domain-specific Benchmarking Methodology and an AI
Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。
我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。
最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文 参考訳(メタデータ) (2020-02-17T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。