Fugu-MT 論文翻訳(概要): Should I Run My Cloud Benchmark on Black Friday?

論文の概要: Should I Run My Cloud Benchmark on Black Friday?

arxiv url: http://arxiv.org/abs/2510.12397v1
Date: Tue, 14 Oct 2025 11:22:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-15 19:02:32.292384
Title: Should I Run My Cloud Benchmark on Black Friday?
Title（参考訳）: ブラックフライデーにクラウドベンチマークを実行するべきか?
Authors: Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser,
Abstract要約: アプリケーションレベルでは、パフォーマンスの変動が観測可能であることを示す。ブラックフライデーのような世界的な大イベントがパフォーマンスベンチマークの結果に影響を与えるかどうかを調べることで、この調査を拡張します。
参考スコア（独自算出の注目度）: 1.9812610973034832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.
Abstract（参考訳）: ベンチマークとパフォーマンスの実験はクラウド環境で頻繁に行われます。しかし、クラウドのパフォーマンスの高変動が再現性や信頼性の懸念を引き起こすと推定されるため、これらの結果はしばしば注意を払って扱われる。最近の研究では、この変数がベンチマーク結果に与える影響を、数ヵ月にわたって異なる時間にストリーム処理アプリケーションベンチマークを繰り返し実行することで、実証的に定量化した。我々の分析では、性能の変動はアプリケーションレベルでは観測可能であるが、しばしば想定されるよりも顕著ではないことを確認した。研究の規模は、関連する作業と比較して大きく、日々の微妙なパフォーマンスパターンや毎週のパフォーマンスパターンを識別することができます。現在、ブラックフライデーのような主要なグローバルイベントがパフォーマンスベンチマークの結果に影響を与えるかどうかを調べることで、この調査を拡張しています。

関連論文リスト

When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation [80.66788281323414]
主要モデル開発者のテクニカルレポートから選択した60のLarge Language Model (LLM)ベンチマークのベンチマーク飽和を分析した。分析の結果、ベンチマークのほぼ半数が飽和しており、ベンチマークの年齢とともに上昇していることがわかった。専門家によるベンチマークは、クラウドソースのベンチマークよりも飽和に抵抗する。
論文参考訳（メタデータ） (2026-02-18T16:51:37Z)
Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文参考訳（メタデータ） (2025-09-14T05:49:42Z)
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文参考訳（メタデータ） (2025-07-14T17:55:15Z)
When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications [1.3398445165628463]
本稿では,クラウド性能の変動がベンチマーク結果に与える影響を実証的に定量化する。約591時間の試験、AWS上の789クラスタのデプロイ、2366ベンチマークの実行などにより、この種の調査としては最大のものと思われる。
論文参考訳（メタデータ） (2025-04-16T07:22:44Z)
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。 ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文参考訳（メタデータ） (2024-06-20T04:35:59Z)
The Base-Rate Effect on LLM Benchmark Performance: Disambiguating Test-Taking Strategies from Benchmark Performance [0.0]
応答トークン間のベースレート確率(BRP)差が重要であり,タスク性能に影響を及ぼすことを示す。本研究では,MMLUのバリエーションであるNvr-X-MMLUタスクを提案する。
論文参考訳（メタデータ） (2024-06-17T15:14:10Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)
MLCommons Cloud Masking Benchmark with Early Stopping [0.837165016574332]
我々は,MLCommons Science Working Groupのクラウドマスキングベンチマークで実施した作業について報告する。ベンチマークは、ニューヨーク大学とバージニア大学のHigh Performance Computing Clustersで実施されている。クラウドマスキングベンチマークについての説明や,実施したベンチマーク実験に関するMLCommonsへの提出の概要について紹介する。
論文参考訳（メタデータ） (2023-12-11T19:06:06Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
Benchmarking Function Hook Latency in Cloud-Native Environments [0.5188841610098435]
クラウドネイティブなアプリケーションは、動的にパッチを当てたり、フックしたりすることで、実行時にインスツルメンテーションしたり、変更されることが多い。本稿では,これらのリスクを軽減し,不適切な実験装置が遅延測定に悪影響を及ぼすことを示す。
論文参考訳（メタデータ） (2023-10-19T12:54:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。