論文の概要: Zero-shot Text-guided Infinite Image Synthesis with LLM guidance
- arxiv url: http://arxiv.org/abs/2407.12642v2
- Date: Thu, 26 Dec 2024 01:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:23:22.705337
- Title: Zero-shot Text-guided Infinite Image Synthesis with LLM guidance
- Title(参考訳): LLM誘導によるゼロショットテキスト誘導無限画像合成
- Authors: Soyeong Kwon, Taegyeong Lee, Taehwan Kim,
- Abstract要約: 解像度とコンテキストの多様性を備えたテキストイメージのペアデータセットが不足している。
テキストに基づく画像の拡張には、グローバルコヒーレンスとリッチなローカルコンテキスト理解が必要である。
本稿では,大域的コヒーレンスと局所的文脈理解の両面において,Large Language Models (LLM) を用いた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 2.531998650341267
- License:
- Abstract: Text-guided image editing and generation methods have diverse real-world applications. However, text-guided infinite image synthesis faces several challenges. First, there is a lack of text-image paired datasets with high-resolution and contextual diversity. Second, expanding images based on text requires global coherence and rich local context understanding. Previous studies have mainly focused on limited categories, such as natural landscapes, and also required to train on high-resolution images with paired text. To address these challenges, we propose a novel approach utilizing Large Language Models (LLMs) for both global coherence and local context understanding, without any high-resolution text-image paired training dataset. We train the diffusion model to expand an image conditioned on global and local captions generated from the LLM and visual feature. At the inference stage, given an image and a global caption, we use the LLM to generate a next local caption to expand the input image. Then, we expand the image using the global caption, generated local caption and the visual feature to consider global consistency and spatial local context. In experiments, our model outperforms the baselines both quantitatively and qualitatively. Furthermore, our model demonstrates the capability of text-guided arbitrary-sized image generation in zero-shot manner with LLM guidance.
- Abstract(参考訳): テキスト誘導画像編集・生成手法は様々な実世界の応用がある。
しかし、テキスト誘導無限画像合成はいくつかの課題に直面している。
まず、高解像度でコンテキストの多様性を持つテキストイメージのペアデータセットがない。
第二に、テキストに基づく画像の拡張には、グローバルコヒーレンスとリッチなローカルコンテキスト理解が必要である。
これまでの研究は主に自然景観などの限られたカテゴリーに焦点を合わせてきたが、高解像度の画像とペアテキストの訓練も必要だった。
これらの課題に対処するために,大域的コヒーレンスと局所的文脈理解の両方にLLM(Large Language Models)を用いた新しいアプローチを提案する。
我々は拡散モデルを訓練し、LLMと視覚特徴から生成されたグローバルキャプションとローカルキャプションに条件付き画像を拡張する。
推論段階では、画像とグローバルキャプションが与えられた場合、LLMを使用して次のローカルキャプションを生成し、入力画像を拡張する。
次に,グローバルキャプション,生成されたローカルキャプション,視覚的特徴を用いて画像を拡張し,グローバル一貫性と空間的ローカルコンテキストを考慮した。
実験では, モデルが定量的, 定性的に, ベースラインより優れていた。
さらに,LLM誘導によるゼロショット方式でテキスト誘導型任意のサイズの画像生成機能を示す。
関連論文リスト
- Natural Language Supervision for Low-light Image Enhancement [0.0]
画像に対応するテキストから特徴マップを学習する自然言語スーパービジョン(NLS)戦略を導入する。
また、画像領域と文語との接続を組み込んだテキスト誘導条件設定機構(TCM)を設計する。
様々なレベルの画像やテキスト情報から特徴を効果的に識別し、マージするために、情報融合注意(IFA)モジュールを設計する。
論文 参考訳(メタデータ) (2025-01-11T13:53:10Z) - Hierarchical Vision-Language Alignment for Text-to-Image Generation via Diffusion Models [0.7366405857677226]
Vision-Language Aligned Diffusion(VLAD)モデルは、デュアルストリーム戦略を通じて課題に対処する生成フレームワークである。
VLADはテキストプロンプトをグローバルおよびローカルな表現に分解し、視覚的特徴と正確に一致させる。
高忠実度画像を生成するための階層的ガイダンスを備えた多段階拡散プロセスが組み込まれている。
論文 参考訳(メタデータ) (2025-01-01T18:27:13Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。
マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。
この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-28T04:47:44Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。
そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文 参考訳(メタデータ) (2021-12-09T13:54:56Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。