論文の概要: Edge-Cloud Routing for Text-to-Image Model with Token-Level Multi-Metric Prediction
- arxiv url: http://arxiv.org/abs/2411.13787v1
- Date: Thu, 21 Nov 2024 02:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:05.985531
- Title: Edge-Cloud Routing for Text-to-Image Model with Token-Level Multi-Metric Prediction
- Title(参考訳): Token-Level Multi-Metric Predictionを用いたテキスト・ツー・イメージ・モデルのエッジ・クラウド・ルーティング
- Authors: Zewei Xin, Qinya Li, Chaoyue Niu, Fan Wu,
- Abstract要約: textttRouteT2Iは、ユーザプロンプト毎に大きなクラウドモデルまたは軽量エッジモデルのいずれかを動的に選択する。
textttRouteT2Iは、高品質な画像生成を維持しながら、大きなクラウドモデルを要求する回数を大幅に削減する。
- 参考スコア(独自算出の注目度): 4.709307506465614
- License:
- Abstract: Large text-to-image models demonstrate impressive generation capabilities; however, their substantial size necessitates expensive cloud servers for deployment. Conversely, light-weight models can be deployed on edge devices at lower cost but often with inferior generation quality for complex user prompts. To strike a balance between performance and cost, we propose a routing framework, called \texttt{RouteT2I}, which dynamically selects either the large cloud model or the light-weight edge model for each user prompt. Since generated image quality is challenging to measure directly, \texttt{RouteT2I} establishes multi-dimensional quality metrics, particularly, by evaluating the similarity between the generated images and both positive and negative texts that describe each specific quality metric. \texttt{RouteT2I} then predicts the expected quality of the generated images by identifying key tokens in the prompt and comparing their impact on the quality. \texttt{RouteT2I} further introduces the Pareto relative superiority to compare the multi-metric quality of the generated images. Based on this comparison and predefined cost constraints, \texttt{RouteT2I} allocates prompts to either the edge or the cloud. Evaluation reveals that \texttt{RouteT2I} significantly reduces the number of requesting large cloud model while maintaining high-quality image generation.
- Abstract(参考訳): 大規模なテキスト・ツー・イメージモデルは印象的な生成機能を示しているが、その相当なサイズは、デプロイに高価なクラウドサーバを必要とする。
逆に、軽量モデルは低コストでエッジデバイスに展開できるが、複雑なユーザプロンプトでは生成品質が劣ることが多い。
性能とコストのバランスをとるために,ユーザプロンプト毎に大きなクラウドモデルと軽量エッジモデルのいずれかを動的に選択する,‘texttt{RouteT2I}’と呼ばれるルーティングフレームワークを提案する。
生成画像の品質を直接測定することは困難であるため、特に、生成画像と各特定の品質指標を記述する正および負のテキストの類似性を評価することにより、多次元品質指標を確立する。
次に、プロンプト内のキートークンを特定し、それらが品質に与える影響を比較することで、生成された画像の期待される品質を予測する。
さらに、生成された画像のマルチメトリック品質を比較するために、Paretoの相対的優位性を導入する。
この比較と事前定義されたコスト制約に基づいて、 \texttt{RouteT2I} はエッジまたはクラウドにプロンプトを割り当てる。
評価の結果, \texttt{RouteT2I} は高品質な画像生成を維持しながら, 大規模クラウドモデルの要求回数を大幅に削減することがわかった。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。
提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文 参考訳(メタデータ) (2024-06-09T18:03:47Z) - MarkovGen: Structured Prediction for Efficient Text-to-Image Generation [43.66036053597747]
マルコフランダム場(MRF)モデルを用いて、画像の異なる領域間の互換性を実現するための軽量なアプローチを提案する。
MRFによる推論は非常に安価で、そのパラメータはバックプロパゲーションによって素早く学習することができる。
私たちのフルモデルであるMarkovGenは、提案したMRFモデルを使用して、Museを1.5倍高速化し、望ましくない画像アーティファクトを減らして高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-08-14T14:07:17Z) - Text-Conditioned Sampling Framework for Text-to-Image Generation with
Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。
TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。
我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-04T03:52:49Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。