論文の概要: Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation
- arxiv url: http://arxiv.org/abs/2605.12305v1
- Date: Tue, 12 May 2026 15:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.987502
- Title: Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation
- Title(参考訳): 文中の画像:統一視覚生成のためのインターリーブインストラクションのスケーリング
- Authors: Yabo Zhang, Kunchang Li, Dewei Zhou, Xinyu Huang, Xun Wang,
- Abstract要約: INSETは、テキスト命令内にネイティブ語彙として画像をシームレスに埋め込む統合生成モデルである。
本稿では,標準画像およびビデオデータセットから1500万件の高品質なインターリーブ付きサンプルを合成するスケーラブルなデータエンジンを提案する。
InterleaveBenchの結果は、INSETがマルチイメージの一貫性とテキストアライメントにおいて最先端の手法を大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 19.404516863003057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent advancements in multimodal language models have enabled image generation from expressive multi-image instructions, existing methods struggle to maintain performance under complex interleaved instructions. This limitation stems from the structural separation of images and text in current paradigms, which forces models to bridge difficult long-range dependencies to match descriptions with visual targets. To address these challenges, we propose \texttt{I}mages i\texttt{N} \texttt{SE}n\texttt{T}ences (\textit{a.k.a}, INSET), a unified generation model that seamlessly embeds images as native vocabulary within textual instructions. By positioning visual features directly at their corresponding semantic slots, INSET leverages the contextual locality of transformers for precise object binding, effectively treating images as dense, expressive language tokens. Furthermore, we introduce a scalable data engine that synthesizes 15M high-quality interleaved samples from standard image and video datasets, utilizing VLMs and LLMs to construct rich, long-horizon sequences. Evaluation results on InterleaveBench demonstrate that INSET significantly outperforms state-of-the-art methods in multi-image consistency and text alignment, with performance gaps widening as input complexity increases. Beyond standard generation, our approach inherently extends to multimodal image editing, integrating visual content as part of the instruction to facilitate highly expressive and creative visual manipulations.
- Abstract(参考訳): 近年のマルチモーダル言語モデルの進歩により,表現型マルチイメージ命令による画像生成が可能になったが,既存の手法では複雑なインターリーブ命令下での性能維持に苦慮している。
この制限は、現在のパラダイムにおける画像とテキストの構造的分離に由来する。
これらの課題に対処するために,画像をテキスト命令内にネイティブ語彙としてシームレスに埋め込む統一生成モデルである,i\textt{N} \texttt{SE}n\texttt{T}ences (\textit{a.k.a}, INSET)を提案する。
視覚的特徴を直接対応するセマンティックスロットに配置することで、INSETはトランスフォーマーのコンテキスト的局所性を正確なオブジェクトバインディングに利用し、画像を高密度で表現力のある言語トークンとして効果的に扱う。
さらに,VLM と LLM を利用してリッチで長水平なシーケンスを構築することにより,標準画像およびビデオデータセットから1500万件の高品質なインターリーブ付きサンプルを合成するスケーラブルなデータエンジンを提案する。
InterleaveBench の評価結果から,INSET は複数画像の整合性とテキストアライメントにおいて最先端の手法を著しく上回り,入力複雑性が増大するにつれて性能ギャップが拡大することを示した。
提案手法は,標準生成だけでなく,マルチモーダルな画像編集にも拡張され,視覚的コンテンツをインストラクションの一部として統合し,高度に表現的かつ創造的な視覚的操作を容易にする。
関連論文リスト
- UM-Text: A Unified Multimodal Model for Image Understanding [11.870303482927541]
自然言語による文脈理解と視覚テキスト編集のための統合型マルチモーダルモデルを提案する。
命令と参照画像を処理するためのビジュアル言語モデル(VLM)を導入する。
我々は,潜伏空間とRGB空間の両方において,グリフ生成をより効果的に管理するために,局所的な一貫性損失を提案する。
論文 参考訳(メタデータ) (2026-01-13T08:18:49Z) - Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。
提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-07-11T13:38:01Z) - VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。