論文の概要: CUBE: A Standard for Unifying Agent Benchmarks
- arxiv url: http://arxiv.org/abs/2603.15798v1
- Date: Mon, 16 Mar 2026 18:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.940303
- Title: CUBE: A Standard for Unifying Agent Benchmarks
- Title(参考訳): CUBE:エージェントベンチマークの統合標準
- Authors: Alexandre Lacoste, Nicolas Gontier, Oleh Shliazhko, Aman Jaiswal, Kusha Sareen, Shailesh Nanisetty, Joan Cabezas, Manuel Del Verme, Omar G. Younis, Simone Baratta, Matteo Avalle, Imene Kerboua, Xing Han Lù, Elron Bandel, Michal Shmueli-Scheuer, Asaf Yehudai, Leshem Choshen, Jonathan Lebensold, Sean Hughes, Massimo Caccia, Alexandre Drouin, Siva Reddy, Tao Yu, Yu Su, Graham Neubig, Dawn Song,
- Abstract要約: MCPとGymをベースとしたユニバーサルプロトコル標準CUBE(Common Unified Benchmark Environments)を提案する。
CUBEは、任意の準拠プラットフォームがカスタム統合なしで、評価、RLトレーニング、データ生成のための準拠ベンチマークにアクセスできるようにする。
- 参考スコア(独自算出の注目度): 138.9831263189749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of agent benchmarks has created critical fragmentation that threatens research productivity. Each new benchmark requires substantial custom integration, creating an "integration tax" that limits comprehensive evaluation. We propose CUBE (Common Unified Benchmark Environments), a universal protocol standard built on MCP and Gym that allows benchmarks to be wrapped once and used everywhere. By separating task, benchmark, package, and registry concerns into distinct API layers, CUBE enables any compliant platform to access any compliant benchmark for evaluation, RL training, or data generation without custom integration. We call on the community to contribute to the development of this standard before platform-specific implementations deepen fragmentation as benchmark production accelerates through 2026.
- Abstract(参考訳): エージェントベンチマークの普及は、研究の生産性を脅かす重要な断片化を生み出している。
新しいベンチマークには、包括的な評価を制限する「統合税」を作成するために、かなりのカスタム統合が必要です。
CUBE(Common Unified Benchmark Environments)は,MPPとGym上に構築された共通プロトコル標準であり,ベンチマークを一度ラップして,どこでも使用することができる。
タスク、ベンチマーク、パッケージ、レジストリの関心事を異なるAPI層に分離することで、CUBEは任意の準拠プラットフォームがカスタム統合なしで、評価、RLトレーニング、データ生成のために準拠するベンチマークにアクセスできるようにする。
ベンチマーク生産が2026年まで加速するにつれて、プラットフォーム固有の実装が断片化を深める前に、この標準の開発に貢献するようコミュニティに呼びかけます。
関連論文リスト
- DEP: A Decentralized Large Language Model Evaluation Protocol [51.3646001384887]
分散評価プロトコル(Decentralized Evaluation Protocol, DEP)は、分散化されているが統一され、標準化された評価フレームワークである。
ユーザ、LLM、ベンチマークを分離することで、DEPはモジュラー、プラグ・アンド・プレイの評価を可能にする。
我々は,ブレークポイントの再開,同時要求,混雑制御などの機能をサポートするプロトコル互換ツールキットであるDEP Toolkitを開発した。
論文 参考訳(メタデータ) (2026-03-01T16:10:16Z) - Symfrog-512: High-Capacity Sponge-Based AEAD Cipher (1024-bit State) [0.0]
この提案には、決定論的テストベクタと再現可能なベンチマークスイートとともに、完全なリファレンス実装が含まれている。
AEADの構築は、ドメイン分離、レートとキャパシティの選択、タグ生成、参照CLIで使用される正確なファイルフォーマットなど、完全に規定されている。
報告されたパフォーマンス数値は、ドキュメンテーションされたハードウェアとコンパイラ設定の下で、組み込みのベンチマークツールによって生成される。
論文 参考訳(メタデータ) (2026-02-19T23:39:54Z) - Easy Data Unlearning Bench [53.1304932656586]
アンラーニングアルゴリズムの評価を簡略化する統一型ベンチマークスイートを導入する。
セットアップとメトリクスの標準化により、未学習のメソッド間で再現性、拡張性、公正な比較が可能になる。
論文 参考訳(メタデータ) (2026-02-18T12:20:32Z) - Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - Bencher: Simple and Reproducible Benchmarking for Black-Box Optimization [5.703483582960509]
Bencherはブラックボックス最適化のためのモジュラーベンチマークフレームワークである。
各ベンチマークは、独自の仮想Python環境で分離され、統一されたバージョンに依存しないリモートプロシージャコール(RPC)インターフェースを介してアクセスされる。
BencherはローカルまたはリモートでDocker経由で、あるいはSingularity経由で高性能なコンピューティングクラスタにデプロイできる。
論文 参考訳(メタデータ) (2025-05-27T15:18:58Z) - BenchAgents: Multi-Agent Systems for Structured Benchmark Creation [23.653678381444276]
BenchAgentsは評価ベンチマークの作成を自動化するフレームワークである。
BenchAgentsを使って、計画、制約満足度、因果推論に関連する機能を評価するベンチマークを作成します。
次に、これらのベンチマークを使用して、最先端のモデルを研究し、共通の障害モードとモデルの違いに関する新たな洞察を抽出します。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Codabench: Flexible, Easy-to-Use and Reproducible Benchmarking for
Everyone [45.673814384050004]
Codabenchは、データセットやタスクに対して、アルゴリズムやソフトウェアエージェントをベンチマークするための、オープンソースでコミュニティ主導のプラットフォームです。
Codabenchのパブリックインスタンスは誰でも無料で公開されている。
論文 参考訳(メタデータ) (2021-10-12T07:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。