論文の概要: Cornserve: Efficiently Serving Any-to-Any Multimodal Models
- arxiv url: http://arxiv.org/abs/2512.14098v1
- Date: Tue, 16 Dec 2025 05:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.600572
- Title: Cornserve: Efficiently Serving Any-to-Any Multimodal Models
- Title(参考訳): Cornserve: マルチモーダルモデルの効率的な実行
- Authors: Jeff J. Ma, Jae-Won Chung, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf Chowdhury,
- Abstract要約: Cornserveは、Any-to-Anyモデルと呼ばれる新しいクラスのマルチモーダルモデルの効率的なオンラインサービスシステムである。
任意の-to-Anyモデルは、入力としてテキストとマルチモーダルデータの組み合わせを受け入れ、出力としてテキストとマルチモーダルデータの組み合わせを生成する。
- 参考スコア(独自算出の注目度): 8.786435662094329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Cornserve, an efficient online serving system for an emerging class of multimodal models called Any-to-Any models. Any-to-Any models accept combinations of text and multimodal data (e.g., image, video, audio) as input and also generate combinations of text and multimodal data as output, introducing request type, computation path, and computation scaling heterogeneity in model serving. Cornserve allows model developers to describe the computation graph of generic Any-to-Any models, which consists of heterogeneous components such as multimodal encoders, autoregressive models like Large Language Models (LLMs), and multimodal generators like Diffusion Transformers (DiTs). Given this, Cornserve's planner automatically finds an optimized deployment plan for the model, including whether and how to disaggregate the model into smaller components based on model and workload characteristics. Cornserve's distributed runtime then executes the model per the plan, efficiently handling Any-to-Any model heterogeneity during online serving. Evaluations show that Cornserve can efficiently serve diverse Any-to-Any models and workloads, delivering up to 3.81$\times$ throughput improvement and up to 5.79$\times$ tail latency reduction over existing solutions.
- Abstract(参考訳): 我々は、Any-to-Anyモデルと呼ばれる新しいマルチモーダルモデルのための効率的なオンラインサービスシステムであるCornserveを提案する。
任意の-to-Anyモデルは、入力としてテキストとマルチモーダルデータ(例えば、画像、ビデオ、オーディオ)の組み合わせを受け入れ、出力としてテキストとマルチモーダルデータの組み合わせを生成し、要求タイプ、計算経路を導入し、モデルサービスにおける不均一性をスケーリングする。
Cornserveは、モデル開発者が一般的なAny-to-Anyモデルの計算グラフを記述することを可能にする。これは、マルチモーダルエンコーダのような異種コンポーネント、Large Language Models (LLM)のような自己回帰モデル、Diffusion Transformers (DiT)のようなマルチモーダルジェネレータで構成される。
これを踏まえて、Cornserveのプランナは、モデルとワークロードの特性に基づいてモデルをより小さなコンポーネントに分解する方法を含む、モデルのための最適化されたデプロイメントプランを自動的に見つける。
Cornserveの分散ランタイムはプランごとにモデルを実行し、オンラインサービス中にAny-to-Anyモデルの不均一性を効率的に処理する。
評価によると、CornserveはさまざまなAny-to-Anyモデルとワークロードを効率的に提供でき、スループットの改善は最大3.81$\times$、既存のソリューションよりも最大5.79$\times$tail遅延を削減できる。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - (Almost) Free Modality Stitching of Foundation Models [13.51886198929883]
ハイパーネットを利用した最適ユニモーダルモデル選択とコネクタトレーニングのためのオールインワンソリューションを提案する。
具体的には、ハイパーネットワークのパラメータ予測機能を利用して、ユニモーダルモデルの組合せとして、N倍のM$に対して共同で訓練されたコネクタモジュールを得る。
実験では,マルチモーダルベンチマークを網羅したグリッドサーチにより得られたランキングと訓練されたコネクタ性能とを一致させながら,最高性能のユニモーダルモデルペアを10倍に検索するコストを削減した。
論文 参考訳(メタデータ) (2025-07-14T07:51:01Z) - Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces [10.85468238780625]
任意の状態空間上に多モード拡散モデルを構築するための新しいフレームワークを提案する。
各モードに対して革新的な分離ノイズスケジュールを導入することにより、単一モデル内で非条件とモード条件の両方を同時に生成することが可能となる。
論文 参考訳(メタデータ) (2025-06-09T16:20:20Z) - Navigating the Accuracy-Size Trade-Off with Flexible Model Merging [15.497612580389479]
我々は、新しいデータフリーモデルマージフレームワークFlexMergeを提案する。
異なる大きさのマージモデルを柔軟に生成し、単一のマージモデルから完全なスペクトルにまたがり、すべての微調整モデルを保持する。
FlexMergeを使って、異なるアルゴリズムの精度と大きさのトレードオフを体系的に特徴づける。
論文 参考訳(メタデータ) (2025-05-29T07:50:32Z) - Show-o: One Single Transformer to Unify Multimodal Understanding and Generation [71.24909962718128]
マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。
完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
論文 参考訳(メタデータ) (2024-08-22T16:32:32Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - AlpaServe: Statistical Multiplexing with Model Parallelism for Deep
Learning Serving [53.01646445659089]
モデル並列性は、複数のモデルを提供する場合、複数のデバイスの統計多重化に利用できることを示す。
本稿では,大規模ディープラーニングモデルのコレクションを配置・並列化するための効率的な戦略を決定する新しいサービスシステムAlpaServeを提案する。
論文 参考訳(メタデータ) (2023-02-22T21:41:34Z) - Multimodal Controller for Generative Models [42.365530133003816]
クラス条件生成モデルは、ユーザが指定したクラスラベルからデータを生成するための重要なツールである。
本稿では,新たな学習パラメータを導入することなく,マルチモーダルデータを生成するプラグイン・アンド・プレイ・モジュール「マルチモーダル・コントローラ」を提案する。
マルチモーダル制御型生成モデルでは,条件付き生成モデルと比較して,品質が大幅に向上したクラス条件付き画像を生成することができることを示す。
論文 参考訳(メタデータ) (2020-02-07T00:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。