論文の概要: Evaluating Kubernetes Performance for GenAI Inference: From Automatic Speech Recognition to LLM Summarization
- arxiv url: http://arxiv.org/abs/2602.04900v1
- Date: Tue, 03 Feb 2026 15:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.520979
- Title: Evaluating Kubernetes Performance for GenAI Inference: From Automatic Speech Recognition to LLM Summarization
- Title(参考訳): GenAI推論のためのKubernetesパフォーマンス評価:自動音声認識からLLM要約まで
- Authors: Sai Sindhur Malleni, Raúl Sevilla, Aleksei Vasilevskii, José Castillo Lema, André Bauer,
- Abstract要約: ジェネレーティブAI(GenAI)は、主要なワークロードカテゴリとして急速に現れます。
この業界論文は、コンテナオーケストレーションのメリットを提供するために、新しいTokenネイティブプロジェクトをどのように組み合わせることができるかを示します。
- 参考スコア(独自算出の注目度): 0.47084854837124496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Generative AI (GenAI), particularly inference, rapidly emerges as a dominant workload category, the Kubernetes ecosystem is proactively evolving to natively support its unique demands. This industry paper demonstrates how emerging Kubernetes-native projects can be combined to deliver the benefits of container orchestration, such as scalability and resource efficiency, to complex AI workflows. We implement and evaluate an illustrative, multi-stage use case consisting of automatic speech recognition and summarization. First, we address batch inference by using Kueue to manage jobs that transcribe audio files with Whisper models and Dynamic Accelerator Slicer (DAS) to increase parallel job execution. Second, we address a discrete online inference scenario by feeding the transcripts to a Large Language Model for summarization hosted using llm-d, a novel solution utilizing the recent developments around the Kubernetes Gateway API Inference Extension (GAIE) for optimized routing of inference requests. Our findings illustrate that these complementary components (Kueue, DAS, and GAIE) form a cohesive, high-performance platform, proving Kubernetes' capability to serve as a unified foundation for demanding GenAI workloads: Kueue reduced total makespan by up to 15%; DAS shortened mean job completion time by 36%; and GAIE improved Time to First Token by 82\%.
- Abstract(参考訳): Generative AI(GenAI)、特に推論が圧倒的なワークロードカテゴリとして急速に出現するにつれ、Kubernetesエコシステムは、そのユニークな要求をネイティブにサポートするために、積極的に進化しています。
この業界論文は、Kubernetesネイティブなプロジェクトが、スケーラビリティやリソース効率といったコンテナオーケストレーションのメリットを、複雑なAIワークフローにもたらす上で、どのように組み合わせられるかを実証している。
本稿では,自動音声認識と要約による多段階的ユースケースの実装と評価を行う。
まず、Kueueを使ってWhisperモデルとDynamic Accelerator Slicer(DAS)でオーディオファイルを書き起こしたジョブを管理し、並列ジョブの実行を増やすことでバッチ推論に対処する。
次に、llm-dを使ってホストされた要約のための大言語モデルに書き起こしを送付することで、個別のオンライン推論シナリオに対処する。
この結果から,これらの補完コンポーネント(Kueue,DAS,GAIE)が,GenAIワークロード要求の統一基盤として機能するKubernetesの能力を証明した凝集性の高いハイパフォーマンスプラットフォームを形成していることが明らかになった。
関連論文リスト
- Harmonizing the Arabic Audio Space with Data Scheduling [15.84874997729878]
本稿では、アラビア語中心のLLMのためのマルチタスク・インストラクション・チューニングに関する最初の体系的研究について述べる。
我々はQwen2.5-Omni (7B) を微調整し、Aligner-Based Diverse Smpling (ADS) とともにタスクプログレッシブカリキュラム (TPC) を提案する。
ADSは初期収束を加速するが、その固有の勾配のボラティリティは、長期の訓練で生成的復号を不安定にすることができる。
論文 参考訳(メタデータ) (2026-01-18T17:08:31Z) - Alita-G: Self-Evolving Generative Agent for Agent Generation [54.49365835457433]
汎用エージェントをドメインエキスパートに変換するフレームワークであるALITA-Gを提案する。
このフレームワークでは、ジェネラリストエージェントが対象ドメインタスクのキュレートされたスイートを実行する。
計算コストを削減しながら、大きな利益を得ることができます。
論文 参考訳(メタデータ) (2025-10-27T17:59:14Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z) - Accelerating AIGC Services with Latent Action Diffusion Scheduling in Edge Networks [27.961536719427205]
現在のAIGCモデルは、主に集中型のフレームワーク内のコンテンツ品質に焦点を当てており、高いサービス遅延とネガティブなユーザエクスペリエンスをもたらす。
高速AIGCサービスのための複数のエッジサーバを編成する新しい遅延アクション拡散に基づくタスクスケジューリング手法であるLAD-TSを提案する。
また,AIGCモデルを改良したプロトタイプエッジシステムであるDEdgeAIを開発し,LAD-TS法の実装と評価を行った。
論文 参考訳(メタデータ) (2024-12-24T06:40:13Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - CENet: Toward Concise and Efficient LiDAR Semantic Segmentation for
Autonomous Driving [4.6193503399184275]
我々はtextbfCENet という画像に基づくセマンティックセマンティックセマンティックネットワークを提案する。
当社のパイプラインは,最先端モデルと比較して,mIoUと推論性能がはるかに向上している。
論文 参考訳(メタデータ) (2022-07-26T07:22:19Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。