論文の概要: BatchBench: Toward a Workload-Aware Benchmark for Autoscaling Policies in Big Data Batch Processing -- A Proposed Framework
- arxiv url: http://arxiv.org/abs/2605.12272v1
- Date: Tue, 12 May 2026 15:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.970325
- Title: BatchBench: Toward a Workload-Aware Benchmark for Autoscaling Policies in Big Data Batch Processing -- A Proposed Framework
- Title(参考訳): BatchBench: ビッグデータバッチ処理における自動スケーリングポリシのためのワークロード対応ベンチマークを目指す - 提案されたフレームワーク
- Authors: Venkata Krishna Prasanth Budigi, Siri Chandana Sirigiri,
- Abstract要約: BatchBenchはオープンなベンチマークフレームワークで、平等な足場上でルールベース、学習、エージェントによるオートスケーリングポリシーを設定するように設計されている。
1)自動スケーリングベンチマークと公開クラスタトレースから合成された6つのバッチ処理クラスのワークロード,(2)2サンプルのKolmogorov-Smirnovとアースモーバー距離に基づく検証手法,(3)コスト,SLA達成,スケール応答性,スケールスラッシュ,決定解釈性を含む5軸評価ハーネス仕様,(4)LLMベースおよび強化学習オートスケーラをルールベースのコントローラとともに評価するための標準化されたエージェントインターフェース。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoscaling has become a baseline expectation for cloud-native big data processing, and the design space has expanded beyond rule-based heuristics to include learned controllers and, most recently, large language model (LLM) agents. Yet despite a growing body of work spanning these paradigms, the community lacks a shared benchmark for comparing them. Existing evaluations rely on synthetic TPC-style queries, vendor blog posts with proprietary baselines, or narrow trace replays. Each new policy reports favorable numbers against a different baseline, on a different workload, with a different cost model, making cross-paper comparison effectively impossible. This is a position paper. We propose BatchBench, an open benchmarking framework designed to place rule-based, learned, and agentic autoscaling policies on equal experimental footing. The contribution is the design of the framework, not empirical results. We contribute: (1) a workload taxonomy of six batch processing classes synthesized from published autoscaling benchmarks and publicly released cluster traces; (2) the design of a parameterized workload generator with a validation methodology based on two-sample Kolmogorov-Smirnov and earth-mover distance; (3) a five-axis evaluation harness specification covering cost, SLA attainment, scaling responsiveness, scaling thrash, and decision interpretability, with first-class accounting for LLM inference cost; and (4) a standardized agent interface that lets LLM-based and reinforcement-learning autoscalers be evaluated alongside rule-based controllers with a single API. We discuss the expected evaluation surface, identify open research questions the framework is designed to answer, and outline a roadmap for the empirical paper that will follow. BatchBench's reference implementation is in active development and will be released as open source.
- Abstract(参考訳): 自動スケーリングはクラウドネイティブなビッグデータ処理のベースラインとして期待され、設計空間はルールベースのヒューリスティックを越えて、学習したコントローラや、最近では大規模言語モデル(LLM)エージェントも含んでいる。
しかし、これらのパラダイムにまたがる仕事が増えているにもかかわらず、コミュニティはそれらを比較するための共有ベンチマークを欠いている。
既存の評価は、合成TPCスタイルのクエリ、プロプライエタリなベースラインを持つベンダーブログポスト、あるいは狭いトレースリプレイに依存している。
それぞれの新ポリシーは、異なる作業量、異なるコストモデルで、異なるベースラインに対して好ましくない数値を報告し、クロスペーパー比較を効果的に不可能にする。
これは位置紙です。
オープンなベンチマークフレームワークであるBatchBenchを提案する。
貢献は、経験的な結果ではなく、フレームワークの設計です。
1)自動スケーリングベンチマークと公開クラスタトレースから合成された6つのバッチ処理クラスのワークロード分類,(2)2サンプルのKolmogorov-Smirnovとアースモーバー距離に基づく検証手法を備えたパラメータ化ワークロードジェネレータの設計,(3)コスト,SLA達成,スケール応答性,スケールスラッシュ,決定解釈性を備えた5軸評価ハーネス仕様,(4)LLM推論コストのファーストクラス会計,(4)LLMベースのおよび強化学習オートスケーラをルールベースのコントローラで評価するための標準化されたエージェントインターフェース。
予測された評価面を議論し、フレームワークが答えるように設計されたオープンリサーチの疑問を特定し、その後に続く実証論文のロードマップを概説する。
BatchBenchのリファレンス実装は開発中であり、オープンソースとしてリリースされる予定である。
関連論文リスト
- SAGE: A Service Agent Graph-guided Evaluation Benchmark [27.342044311161654]
本稿では,SAGE(Service Agent Graph-Guided Evaluation)を提案する。
SAGEは構造化されていないSOPを動的ダイアロググラフに形式化し、論理的コンプライアンスの正確な検証を可能にする。
また、モデルが論理的失敗にもかかわらず丁寧な会話ファサードを維持する現象である「共感回復」も観察する。
論文 参考訳(メタデータ) (2026-04-10T12:55:23Z) - DEP: A Decentralized Large Language Model Evaluation Protocol [51.3646001384887]
分散評価プロトコル(Decentralized Evaluation Protocol, DEP)は、分散化されているが統一され、標準化された評価フレームワークである。
ユーザ、LLM、ベンチマークを分離することで、DEPはモジュラー、プラグ・アンド・プレイの評価を可能にする。
我々は,ブレークポイントの再開,同時要求,混雑制御などの機能をサポートするプロトコル互換ツールキットであるDEP Toolkitを開発した。
論文 参考訳(メタデータ) (2026-03-01T16:10:16Z) - Bridging Academia and Industry: A Comprehensive Benchmark for Attributed Graph Clustering [19.247242477915382]
分散グラフクラスタリング(AGC)は、構造トポロジとノード属性を統合して、グラフ構造化データの潜在パターンを明らかにする、基本的な教師なしタスクである。
不正検出やユーザセグメンテーションといった産業的応用において重要であるが、学術研究と現実世界の展開の間には大きな亀裂が残っている。
PyAGCは多種多様なスケールと構造特性にまたがってAGC手法をストレステストするために設計された,実運用可能なベンチマークおよびライブラリである。
論文 参考訳(メタデータ) (2026-02-09T11:07:24Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects [23.9752442213364]
CodeFuse-CR-Benchは、リポジトリレベルのCR評価のための、最初の包括性対応ベンチマークである。
CodeFuse-CR-Benchは、9つのプルリクエスト(PR)問題ドメインをカバーする70のPythonプロジェクトから601の高品質なインスタンスで構成されている。
本稿では,この包括的CR課題に対して,最先端の大規模言語モデル(LLM)の大規模評価を行う。
論文 参考訳(メタデータ) (2025-09-18T11:24:09Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。