Fugu-MT 論文翻訳(概要): Zero-shot Text-guided Infinite Image Synthesis with LLM guidance

論文の概要: Zero-shot Text-guided Infinite Image Synthesis with LLM guidance

arxiv url: http://arxiv.org/abs/2407.12642v1
Date: Wed, 17 Jul 2024 15:10:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 16:35:48.594749
Title: Zero-shot Text-guided Infinite Image Synthesis with LLM guidance
Title（参考訳）: LLM誘導によるゼロショットテキスト誘導無限画像合成
Authors: Soyeong Kwon, Taegyeong Lee, Taehwan Kim,
Abstract要約: 解像度とコンテキストの多様性を備えたテキストイメージのペアデータセットが不足している。テキストに基づく画像の拡張には、グローバルコヒーレンスとリッチなローカルコンテキスト理解が必要である。本稿では,大域的コヒーレンスと局所的文脈理解の両面において,Large Language Models (LLM) を用いた新しい手法を提案する。
参考スコア（独自算出の注目度）: 2.531998650341267
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Text-guided image editing and generation methods have diverse real-world applications. However, text-guided infinite image synthesis faces several challenges. First, there is a lack of text-image paired datasets with high-resolution and contextual diversity. Second, expanding images based on text requires global coherence and rich local context understanding. Previous studies have mainly focused on limited categories, such as natural landscapes, and also required to train on high-resolution images with paired text. To address these challenges, we propose a novel approach utilizing Large Language Models (LLMs) for both global coherence and local context understanding, without any high-resolution text-image paired training dataset. We train the diffusion model to expand an image conditioned on global and local captions generated from the LLM and visual feature. At the inference stage, given an image and a global caption, we use the LLM to generate a next local caption to expand the input image. Then, we expand the image using the global caption, generated local caption and the visual feature to consider global consistency and spatial local context. In experiments, our model outperforms the baselines both quantitatively and qualitatively. Furthermore, our model demonstrates the capability of text-guided arbitrary-sized image generation in zero-shot manner with LLM guidance.
Abstract（参考訳）: テキスト誘導画像編集・生成手法は様々な実世界の応用がある。しかし、テキスト誘導無限画像合成はいくつかの課題に直面している。まず、高解像度でコンテキストの多様性を持つテキストイメージのペアデータセットがない。第二に、テキストに基づく画像の拡張には、グローバルコヒーレンスとリッチなローカルコンテキスト理解が必要である。これまでの研究は主に自然景観などの限られたカテゴリーに焦点を合わせてきたが、高解像度の画像とペアテキストの訓練も必要だった。これらの課題に対処するために,大域的コヒーレンスと局所的文脈理解の両方にLLM(Large Language Models)を用いた新しいアプローチを提案する。我々は拡散モデルを訓練し、LLMと視覚特徴から生成されたグローバルキャプションとローカルキャプションに条件付き画像を拡張する。推論段階では、画像とグローバルキャプションが与えられた場合、LLMを使用して次のローカルキャプションを生成し、入力画像を拡張する。次に,グローバルキャプション,生成されたローカルキャプション,視覚的特徴を用いて画像を拡張し,グローバル一貫性と空間的ローカルコンテキストを考慮した。実験では, モデルが定量的, 定性的に, ベースラインより優れていた。さらに,LLM誘導によるゼロショット方式でテキスト誘導型任意のサイズの画像生成機能を示す。

関連論文リスト

Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation [39.52909851398792]
Text Image Machine Translationは、ソース言語で画像に埋め込まれたテキストをターゲット言語に変換することを目的としている。既存のTIMT法は、乱雑なレイアウト、多様なフォント、非テキストの注意散らしなどにより、高解像度のテキストリッチな画像に苦しむ。 MLLMベースのTIMTのためのグローバルなデュアル視覚認識フレームワークであるGLoTranを提案する。
論文参考訳（メタデータ） (2026-02-25T14:38:47Z)
Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Training of Large Vision-Language Models [6.591422574318155]
テキスト中心のトレーニングは、テキスト記述のみが利用可能であり、実際の画像は提供されない設定である。プライバシの制約やニッチドメインの不足によって収集が制限される画像とは異なり、テキストは広く利用することができる。そこで,テキストプリント画像(TPI)を提案し,テキスト記述を直接白キャンバスに描画することで合成画像を生成する。
論文参考訳（メタデータ） (2025-12-03T05:36:46Z)
Text-Aware Real-World Image Super-Resolution via Diffusion Model with Joint Segmentation Decoders [14.655107789528673]
本稿では,テキスト認識と共同セグメンテーションデコーダを統合した新しい拡散型SRフレームワークTADiSRを紹介する。本研究では,高精細なフルイメージのテキストマスクを用いた高品質な画像合成のための完全なパイプラインを提案する。提案手法は,超解像におけるテキストの可読性を大幅に向上させ,複数の評価指標にまたがって最先端の性能を実現する。
論文参考訳（メタデータ） (2025-06-05T05:23:10Z)
Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
Natural Language Supervision for Low-light Image Enhancement [0.0]
画像に対応するテキストから特徴マップを学習する自然言語スーパービジョン(NLS)戦略を導入する。また、画像領域と文語との接続を組み込んだテキスト誘導条件設定機構(TCM)を設計する。様々なレベルの画像やテキスト情報から特徴を効果的に識別し、マージするために、情報融合注意(IFA)モジュールを設計する。
論文参考訳（メタデータ） (2025-01-11T13:53:10Z)
Hierarchical Vision-Language Alignment for Text-to-Image Generation via Diffusion Models [0.7366405857677226]
Vision-Language Aligned Diffusion(VLAD)モデルは、デュアルストリーム戦略を通じて課題に対処する生成フレームワークである。 VLADはテキストプロンプトをグローバルおよびローカルな表現に分解し、視覚的特徴と正確に一致させる。高忠実度画像を生成するための階層的ガイダンスを備えた多段階拡散プロセスが組み込まれている。
論文参考訳（メタデータ） (2025-01-01T18:27:13Z)
FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文参考訳（メタデータ） (2024-07-19T09:08:20Z)
mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-05-28T04:47:44Z)
GLoD: Composing Global Contexts and Local Details in Image Generation [0.0]
Global-Local Diffusion (textitGLoD)は、グローバルコンテキストとローカル詳細の同時制御を可能にする新しいフレームワークである。複数のグローバルなプロンプトとローカルなプロンプトを対応するレイヤに割り当て、ノイズを発生させるプロセスのガイドとして構成する。本フレームワークは,グローバルなプロンプト内のオブジェクトをローカルなプロンプトで条件付けし,他の未特定なアイデンティティを保存しながら,複雑なグローバルなローカルなコンポジションを実現する。
論文参考訳（メタデータ） (2024-04-23T18:39:57Z)
TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文参考訳（メタデータ） (2024-04-15T13:54:35Z)
SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文参考訳（メタデータ） (2024-01-04T08:42:36Z)
SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)
Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。 GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文参考訳（メタデータ） (2022-11-14T11:41:44Z)
Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。 TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文参考訳（メタデータ） (2022-08-30T16:14:18Z)
Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文参考訳（メタデータ） (2021-12-09T13:54:56Z)
Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文参考訳（メタデータ） (2021-04-18T16:56:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。