論文の概要: FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems
- arxiv url: http://arxiv.org/abs/2601.00227v1
- Date: Thu, 01 Jan 2026 06:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.325763
- Title: FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems
- Title(参考訳): FlashInfer-Bench: AI駆動LLMシステムのための活発なサイクルの構築
- Authors: Shanli Xing, Yiyan Zhai, Alexander Jiang, Yixin Dong, Yong Wu, Zihao Ye, Charlie Ruan, Yingyi Huang, Yineng Zhang, Liangsheng Yin, Aksara Bayyapu, Luis Ceze, Tianqi Chen,
- Abstract要約: FlashInfer-Benchは、カーネル生成、ベンチマーク、デプロイを接続するフレームワークである。
実際のサービストレースに基づいて構築されたFlashInfer-Benchには、キュレートされたデータセット、堅牢な正確性とパフォーマンスを意識したベンチマークフレームワーク、公開リーダボードが含まれている。
我々は FlashInfer-Bench を用いて LLM エージェントの性能と限界を評価し,GPU プログラム言語間のトレードオフを比較し,将来のエージェント設計に対する洞察を提供する。
- 参考スコア(独自算出の注目度): 39.33711841865621
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances show that large language models (LLMs) can act as autonomous agents capable of generating GPU kernels, but integrating these AI-generated kernels into real-world inference systems remains challenging. FlashInfer-Bench addresses this gap by establishing a standardized, closed-loop framework that connects kernel generation, benchmarking, and deployment. At its core, FlashInfer Trace provides a unified schema describing kernel definitions, workloads, implementations, and evaluations, enabling consistent communication between agents and systems. Built on real serving traces, FlashInfer-Bench includes a curated dataset, a robust correctness- and performance-aware benchmarking framework, a public leaderboard to track LLM agents' GPU programming capabilities, and a dynamic substitution mechanism (apply()) that seamlessly injects the best-performing kernels into production LLM engines such as SGLang and vLLM. Using FlashInfer-Bench, we further evaluate the performance and limitations of LLM agents, compare the trade-offs among different GPU programming languages, and provide insights for future agent design. FlashInfer-Bench thus establishes a practical, reproducible pathway for continuously improving AI-generated kernels and deploying them into large-scale LLM inference.
- Abstract(参考訳): 最近の進歩は、大規模言語モデル(LLM)がGPUカーネルを生成する自律エージェントとして機能することを示しているが、これらのAI生成カーネルを現実世界の推論システムに統合することは依然として困難である。
FlashInfer-Benchは、カーネル生成、ベンチマーク、デプロイを接続する標準化されたクローズドループフレームワークを確立することで、このギャップに対処する。
FlashInfer Traceの中核は、カーネルの定義、ワークロード、実装、評価を記述する統一スキーマを提供し、エージェントとシステム間の一貫した通信を可能にする。
実際のサービストレースに基づいて構築されたFlashInfer-Benchには、キュレートされたデータセット、堅牢な正しさとパフォーマンスを意識したベンチマークフレームワーク、LLMエージェントのGPUプログラミング機能を追跡する公開リーダボード、SGLangやvLLMといったプロダクションLLMエンジンに最高のパフォーマンスのカーネルをシームレスに注入する動的置換メカニズム(apply())が含まれている。
我々は FlashInfer-Bench を用いて LLM エージェントの性能と限界を更に評価し,GPU プログラム言語間のトレードオフを比較し,将来のエージェント設計に対する洞察を提供する。
これにより、FlashInfer-Benchは、AI生成されたカーネルを継続的に改善し、それらを大規模LLM推論にデプロイする実用的な再現可能な経路を確立する。
関連論文リスト
- AIvailable: A Software-Defined Architecture for LLM-as-a-Service on Heterogeneous and Legacy GPUs [0.5863360388454261]
低コストで高可用性のLLM-as-a-Service(LLM)プラットフォームであるAIvailableを紹介します。
ソフトウェア定義のアプローチを使用して、異種およびレガシGPUノード上でLLMを実行する。
統合されたクライアントインターフェースを備えており、すべてのデプロイされたLLMとのシームレスなインタラクションを可能にします。
論文 参考訳(メタデータ) (2025-11-06T14:19:57Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - Forecasting LLM Inference Performance via Hardware-Agnostic Analytical Modeling [0.02091806248191979]
本稿では,演算子のモジュラー解析モデルからなる軽量でモジュラーな解析フレームワークLIFEを紹介する。
LIFEは、量子化、KVキャッシュ圧縮、LoRAアダプタ、チャンクされたプリフィル、異なる注意、演算子融合など、ソフトウェアとモデル最適化の影響を特徴づけている。
我々は,AMD CPU,NPU,iGPU,NVIDIA V100 GPUにおけるLIFEの予測をLlama2-7B変種を用いて検証した。
論文 参考訳(メタデータ) (2025-07-29T03:08:31Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving [9.386969461835433]
FlashInferは、大きな言語モデル(LLM)のためのカスタマイズ可能で効率的なアテンションエンジンである
ブロックスパースフォーマットと構成可能なフォーマットを使用して、KV-cacheストレージの不均一性に取り組むことで、メモリアクセスの最適化と冗長性の低減を実現している。
また、Just-In-TimeJITコンパイルによるさまざまな設定への適応を可能にする、カスタマイズ可能なアテンションテンプレートも提供する。
論文 参考訳(メタデータ) (2025-01-02T02:02:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。