Fugu-MT 論文翻訳(概要): UniVL: Unified Vision-Language Embedding for Spatially Grounded Contextual Image Generation

論文の概要: UniVL: Unified Vision-Language Embedding for Spatially Grounded Contextual Image Generation

arxiv url: http://arxiv.org/abs/2605.21611v1
Date: Wed, 20 May 2026 18:17:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:41.953392
Title: UniVL: Unified Vision-Language Embedding for Spatially Grounded Contextual Image Generation
Title（参考訳）: UniVL:空間的背景画像生成のための統一視覚言語埋め込み
Authors: Jiayun Wang, Yu Wang, Weijie Gan, Zhenting Wang, Wei Wei,
Abstract要約: コンディショニングパラダイムを再構成する制御可能な画像生成タスクである空間的接地型文脈画像生成を導入する。 UniVLは、単一の統一された視覚入力から直接、セマンティクスを空間的位置にバインドするように訓練されている。テキストプロンプトベースラインよりも画質が向上し、FIDが14から11に減少し、PSNRが16から20に増加した。
参考スコア（独自算出の注目度）: 27.223108305640576
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce spatially grounded contextual image generation, a controllable image generation task that reframes the conditioning paradigm. Instead of supplying a reference image and a global text prompt through two separate encoders, one for vision and one for language, UniVL is trained to bind semantics to spatial locations directly from a single unified visual input, where the textual instruction is rendered onto the spatial mask. This removes the need for a standalone text encoder at inference time. The resulting model supports contextual image generation by following user-specified instructions about what should appear where, while substantially reducing computation. To address this task, we propose a framework in which the UniVL encoder, adapted from an optical-character-recognition-pretrained backbone, reads the unified condition optically and produces a UniVL embedding, fVIL, that fuses visual and semantic intent with spatial locations in a single token sequence. A two-stage pipeline first aligns UniVL with the VAE embedding space and then conditions a pretrained diffusion backbone entirely on UniVL embeddings, eliminating the standalone text encoder, such as T5. Although this reframing uses a deliberately minimal text interface, it yields strong empirical gains. On UniVL-ImgGen, a benchmark of 477K mask-annotated images that we construct for training and evaluation, UniVL improves image quality over text-prompted baselines, reducing FID from 14 to 11 and increasing PSNR from 16 to 20. It also eliminates the text encoder entirely, reducing inference TFLOPs by up to 52% and runtime by up to 44%. Additional ablation studies validate the contributions of the proposed components, paving the way for efficient, spatially grounded image generation with a unified conditioning paradigm.
Abstract（参考訳）: コンディショニングパラダイムを再構成する制御可能な画像生成タスクである空間的接地型文脈画像生成を導入する。視覚用と言語用という2つの独立したエンコーダを通じて参照画像とグローバルテキストをプロンプトする代わりに、UniVLは、テキスト命令が空間マスクに描画される単一の統一的な視覚入力から直接、意味を空間的な場所に結合するように訓練されている。これにより、推論時にスタンドアロンのテキストエンコーダが不要になる。結果のモデルでは,ユーザの指定した指示に従うことでコンテキスト画像生成をサポートし,計算量を大幅に削減する。この課題に対処するため,光学文字認識付きバックボーンを応用したUniVLエンコーダを提案し,その統一条件を光学的に読み出し,単一のトークンシーケンス内の空間的位置と視覚的および意味的意図を融合するfVILを生成する。 2段階のパイプラインはまず、UniVLをVAE埋め込み空間と整列させ、その後、UniVL埋め込みに完全にトレーニング済みの拡散バックボーンを条件付け、T5のようなスタンドアロンのテキストエンコーダを除去する。このリフレーミングは故意に最小限のテキストインターフェースを使用するが、強い経験的利益をもたらす。トレーニングと評価のために構築した477Kマスク付画像のベンチマークであるUniVL-ImgGenでは、テキストプロンプトベースラインよりも画質が向上し、FIDが14から11に減少し、PSNRが16から20に増加した。また、テキストエンコーダを完全に排除し、推論TFLOPを最大52%、ランタイムを最大44%削減する。追加のアブレーション研究は、提案したコンポーネントの寄与を検証し、統一された条件付けパラダイムを用いて、効率的で空間的に接地された画像生成の道を開く。

関連論文リスト

Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders [46.79030733172859]
本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルのためのシンプソン・リライト(T2G)パラダイムを提案する。推論に基づく画像生成と編集ベンチマークにより,現実の一貫性,セマンティックアライメント,視覚的リアリズムが大幅に改善された。この結果は,推論,表現,実証能力を備えた次世代統一モデルに向けての有望な一歩となる。
論文参考訳（メタデータ） (2026-01-15T12:19:05Z)
UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation [51.31795451147935]
本稿では,単一のピクセル間拡散フレームワーク内での視覚的理解と視覚的生成を支援する統合生成モデルを提案する。私たちのゴールは、モデル、タスク、表現の3つの軸に沿った統一を達成することです。画像間合成と画像間理解の実験は、強いモーダルアライメントを示す。
論文参考訳（メタデータ） (2025-11-21T03:02:10Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文参考訳（メタデータ） (2025-02-27T15:08:39Z)
Bridging Text and Vision: A Multi-View Text-Vision Registration Approach for Cross-Modal Place Recognition [4.562684361220731]
位置認識タスクのためのテキストビジョン登録手法であるText4VPRを提案する。 Text4VPRは、画像のデータベースにマッチするテキスト記述のみを利用する。私たちが作成したVPRデータセットをイメージする最初のテキストであるStreet360Locでは、Text4VPRが堅牢なベースラインを構築し、トップ1の精度が57%、トップ10の精度がテストセットの半径5m以内で92%に達した。
論文参考訳（メタデータ） (2025-02-20T02:00:02Z)
Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文参考訳（メタデータ） (2024-08-11T06:36:42Z)
Contrastive Vision-Language Alignment Makes Efficient Instruction Learner [31.281236193979165]
本研究では,大規模言語モデル(LLM)を視覚言語命令追従モデルに拡張する作業について検討する。既存の方法では、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させるのが一般的である。比較的および生成的アライメントの目的を適用し, ViT と LLM の表現を効果的に整合させる CG-VLM を提案する。
論文参考訳（メタデータ） (2023-11-29T03:29:46Z)
CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。 CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-03-23T17:24:31Z)
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文参考訳（メタデータ） (2021-11-19T03:23:10Z)
Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文参考訳（メタデータ） (2021-04-01T15:48:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。