論文の概要: Sequential Semantic Generative Communication for Progressive
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2309.04287v1
- Date: Fri, 8 Sep 2023 12:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 13:31:43.880008
- Title: Sequential Semantic Generative Communication for Progressive
Text-to-Image Generation
- Title(参考訳): プログレッシブテキスト対画像生成のための逐次意味生成通信
- Authors: Hyelin Nam, Jihong Park, Jinho Choi, Seong-Lyun Kim
- Abstract要約: 本稿では,多モード生成モデルの有望な生成能力を活用した通信システムを提案する。
送信機は、多モデル生成プロセスを介して客観的画像をテキストに変換し、受信機は、逆処理を用いて画像を再構成する。
我々の研究は、最先端の生成モデルを実際の通信システムに活用する新たな道を開くことが期待されている。
- 参考スコア(独自算出の注目度): 32.82954905044597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes new framework of communication system leveraging
promising generation capabilities of multi-modal generative models. Regarding
nowadays smart applications, successful communication can be made by conveying
the perceptual meaning, which we set as text prompt. Text serves as a suitable
semantic representation of image data as it has evolved to instruct an image or
generate image through multi-modal techniques, by being interpreted in a manner
similar to human cognition. Utilizing text can also reduce the overload
compared to transmitting the intact data itself. The transmitter converts
objective image to text through multi-model generation process and the receiver
reconstructs the image using reverse process. Each word in the text sentence
has each syntactic role, responsible for particular piece of information the
text contains. For further efficiency in communication load, the transmitter
sequentially sends words in priority of carrying the most information until
reaches successful communication. Therefore, our primary focus is on the
promising design of a communication system based on image-to-text
transformation and the proposed schemes for sequentially transmitting word
tokens. Our work is expected to pave a new road of utilizing state-of-the-art
generative models to real communication systems
- Abstract(参考訳): 本稿では,多モード生成モデルの有望な生成能力を活用した通信システムを提案する。
近年のスマートアプリケーションでは,テキストプロンプトとして設定した知覚的意味を伝達することで,コミュニケーションが成功している。
テキストは、人間の認識に類似した方法で解釈されることで、画像の指示や、マルチモーダル技術による画像生成の進化に伴って、画像データの適切な意味表現として機能する。
テキストを利用することで、そのままのデータ送信に比べて過負荷を低減できる。
送信機はマルチモデル生成プロセスで客観的画像をテキストに変換し、受信者は逆プロセスで画像を再構成する。
テキスト中の各単語はそれぞれの構文的役割を持ち、テキストに含まれる特定の情報に責任を負う。
通信負荷のさらなる効率化のため、送信者は、通信が成功するまで、最も情報を運ぶことを優先して単語を順次送信する。
そこで本研究では,画像からテキストへの変換に基づく通信システムの有望な設計と,単語トークンの逐次送信方式を提案する。
我々の研究は,最先端生成モデルから実通信システムへの新たな道を拓くことが期待されている。
関連論文リスト
- Semantic Feature Decomposition based Semantic Communication System of Images with Large-scale Visual Generation Models [5.867765921443141]
テクスチャカラーに基づく画像TCSCIのセマンティックコミュニケーションシステムを提案する。
イメージを自然言語記述(テキスト)、テクスチャ、色の意味的特徴に分解する。
非常に圧縮され、ノイズに強く、視覚的に類似した画像意味コミュニケーションを実現し、伝送プロセスの解釈性と編集性を確保する。
論文 参考訳(メタデータ) (2024-10-26T08:53:05Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - De-Diffusion Makes Text a Strong Cross-Modal Interface [33.90004746543745]
我々は、事前訓練されたテキスト-画像拡散モデルを用いてデコードを行うオートエンコーダを用いる。
画像を表すDe-Diffusionテキストの精度と包括性を検証する実験。
単一のDe-Diffusionモデルは、さまざまなテキスト・トゥ・イメージツールに対して転送可能なプロンプトを提供するために一般化することができる。
論文 参考訳(メタデータ) (2023-11-01T16:12:40Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。