Fugu-MT 論文翻訳(概要): Edge-Cloud Routing for Text-to-Image Model with Token-Level Multi-Metric Prediction

論文の概要: Edge-Cloud Routing for Text-to-Image Model with Token-Level Multi-Metric Prediction

arxiv url: http://arxiv.org/abs/2411.13787v1
Date: Thu, 21 Nov 2024 02:18:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.69007
Title: Edge-Cloud Routing for Text-to-Image Model with Token-Level Multi-Metric Prediction
Title（参考訳）: Token-Level Multi-Metric Predictionを用いたテキスト・ツー・イメージ・モデルのエッジ・クラウド・ルーティング
Authors: Zewei Xin, Qinya Li, Chaoyue Niu, Fan Wu,
Abstract要約: textttRouteT2Iは、ユーザプロンプト毎に大きなクラウドモデルまたは軽量エッジモデルのいずれかを動的に選択する。 textttRouteT2Iは、高品質な画像生成を維持しながら、大きなクラウドモデルを要求する回数を大幅に削減する。
参考スコア（独自算出の注目度）: 4.709307506465614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large text-to-image models demonstrate impressive generation capabilities; however, their substantial size necessitates expensive cloud servers for deployment. Conversely, light-weight models can be deployed on edge devices at lower cost but often with inferior generation quality for complex user prompts. To strike a balance between performance and cost, we propose a routing framework, called \texttt{RouteT2I}, which dynamically selects either the large cloud model or the light-weight edge model for each user prompt. Since generated image quality is challenging to measure directly, \texttt{RouteT2I} establishes multi-dimensional quality metrics, particularly, by evaluating the similarity between the generated images and both positive and negative texts that describe each specific quality metric. \texttt{RouteT2I} then predicts the expected quality of the generated images by identifying key tokens in the prompt and comparing their impact on the quality. \texttt{RouteT2I} further introduces the Pareto relative superiority to compare the multi-metric quality of the generated images. Based on this comparison and predefined cost constraints, \texttt{RouteT2I} allocates prompts to either the edge or the cloud. Evaluation reveals that \texttt{RouteT2I} significantly reduces the number of requesting large cloud model while maintaining high-quality image generation.
Abstract（参考訳）: 大規模なテキスト・ツー・イメージモデルは印象的な生成機能を示しているが、その相当なサイズは、デプロイに高価なクラウドサーバを必要とする。逆に、軽量モデルは低コストでエッジデバイスに展開できるが、複雑なユーザプロンプトでは生成品質が劣ることが多い。性能とコストのバランスをとるために,ユーザプロンプト毎に大きなクラウドモデルと軽量エッジモデルのいずれかを動的に選択する,‘texttt{RouteT2I}’と呼ばれるルーティングフレームワークを提案する。生成画像の品質を直接測定することは困難であるため、特に、生成画像と各特定の品質指標を記述する正および負のテキストの類似性を評価することにより、多次元品質指標を確立する。次に、プロンプト内のキートークンを特定し、それらが品質に与える影響を比較することで、生成された画像の期待される品質を予測する。さらに、生成された画像のマルチメトリック品質を比較するために、Paretoの相対的優位性を導入する。この比較と事前定義されたコスト制約に基づいて、 \texttt{RouteT2I} はエッジまたはクラウドにプロンプトを割り当てる。評価の結果, \texttt{RouteT2I} は高品質な画像生成を維持しながら, 大規模クラウドモデルの要求回数を大幅に削減することがわかった。

関連論文リスト

Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation [9.978181430065987]
LongBench-T2Iは、複雑な命令の下でテキスト・トゥ・イメージ(T2I)モデルを評価するためのベンチマークである。 LongBench-T2Iは9つの視覚的評価次元にまたがる500の複雑なプロンプトで構成されている。 Plan2Genは複雑な命令駆動の画像生成を容易にするフレームワークで、追加のモデルトレーニングを必要としない。
論文参考訳（メタデータ） (2025-05-30T16:48:14Z)
EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-24T04:08:25Z)
Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文参考訳（メタデータ） (2024-11-08T17:07:01Z)
ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。トークン長に関する復元と生成品質の間にはトレードオフがある。本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文参考訳（メタデータ） (2024-10-02T17:06:39Z)
Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-03T08:15:39Z)
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文参考訳（メタデータ） (2024-06-10T17:59:52Z)
OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文参考訳（メタデータ） (2024-06-09T18:03:47Z)
MarkovGen: Structured Prediction for Efficient Text-to-Image Generation [43.66036053597747]
マルコフランダム場(MRF)モデルを用いて、画像の異なる領域間の互換性を実現するための軽量なアプローチを提案する。 MRFによる推論は非常に安価で、そのパラメータはバックプロパゲーションによって素早く学習することができる。私たちのフルモデルであるMarkovGenは、提案したMRFモデルを使用して、Museを1.5倍高速化し、望ましくない画像アーティファクトを減らして高品質な画像を生成する。
論文参考訳（メタデータ） (2023-08-14T14:07:17Z)
Text-Conditioned Sampling Framework for Text-to-Image Generation with Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。 TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2023-04-04T03:52:49Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
Hypercomplex Image-to-Image Translation [13.483068375377362]
画像から画像への変換(I2I)は、コンテンツ表現を入力ドメインから出力ドメインに転送することを目的としている。この課題で卓越した結果を得た最近のI2I生成モデルは、それぞれ数千万のパラメータを持つ多様な深層ネットワークで構成されている。画像次元間の既往の関係を保存できる軽量I2I生成モデルを定義するために,超複素代数特性を活用することを提案する。
論文参考訳（メタデータ） (2022-05-04T14:28:50Z)
Multi-Class Multi-Instance Count Conditioned Adversarial Image Generation [9.560980936110234]
与えられたクラスから定義された数のオブジェクトを持つ画像を生成する条件付きジェネレーティブ・アドバーサリ・ネットワーク(GAN)を提案する。これは(1)複雑な制約により高品質な画像を生成することができ、(2)与えられた画像内のクラスごとにオブジェクトインスタンスを数えることができるという2つの基本的な能力を伴う。 3つの異なるデータセットの実験において、複雑な背景が存在する場合でも、提案モデルが与えられた多重クラスカウント条件に従って画像を生成することを学習することを示す。
論文参考訳（メタデータ） (2021-03-31T04:06:11Z)
Towards Unsupervised Deep Image Enhancement with Generative Adversarial Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T03:22:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。