論文の概要: UM-Text: A Unified Multimodal Model for Image Understanding
- arxiv url: http://arxiv.org/abs/2601.08321v1
- Date: Tue, 13 Jan 2026 08:18:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.114954
- Title: UM-Text: A Unified Multimodal Model for Image Understanding
- Title(参考訳): UM-Text:画像理解のための統一マルチモーダルモデル
- Authors: Lichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang,
- Abstract要約: 自然言語による文脈理解と視覚テキスト編集のための統合型マルチモーダルモデルを提案する。
命令と参照画像を処理するためのビジュアル言語モデル(VLM)を導入する。
我々は,潜伏空間とRGB空間の両方において,グリフ生成をより効果的に管理するために,局所的な一貫性損失を提案する。
- 参考スコア(独自算出の注目度): 11.870303482927541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of image generation, visual text editing using natural language instructions has received increasing attention. The main challenge of this task is to fully understand the instruction and reference image, and thus generate visual text that is style-consistent with the image. Previous methods often involve complex steps of specifying the text content and attributes, such as font size, color, and layout, without considering the stylistic consistency with the reference image. To address this, we propose UM-Text, a unified multimodal model for context understanding and visual text editing by natural language instructions. Specifically, we introduce a Visual Language Model (VLM) to process the instruction and reference image, so that the text content and layout can be elaborately designed according to the context information. To generate an accurate and harmonious visual text image, we further propose the UM-Encoder to combine the embeddings of various condition information, where the combination is automatically configured by VLM according to the input instruction. During training, we propose a regional consistency loss to offer more effective supervision for glyph generation on both latent and RGB space, and design a tailored three-stage training strategy to further enhance model performance. In addition, we contribute the UM-DATA-200K, a large-scale visual text image dataset on diverse scenes for model training. Extensive qualitative and quantitative results on multiple public benchmarks demonstrate that our method achieves state-of-the-art performance.
- Abstract(参考訳): 画像生成の急速な進歩に伴い、自然言語による視覚テキスト編集が注目されている。
このタスクの主な課題は、命令と参照画像を完全に理解し、画像とスタイル整合な視覚テキストを生成することである。
以前の手法では、フォントサイズ、色、レイアウトなどのテキストの内容や属性を、参照画像とのスタイル整合性を考慮せずに指定する複雑なステップがしばしば含まれていた。
そこで本研究では,文脈理解と自然言語による視覚テキスト編集のための統合マルチモーダルモデルUM-Textを提案する。
具体的には、インストラクションと参照画像を処理するビジュアル言語モデル(VLM)を導入し、コンテキスト情報に基づいてテキストの内容とレイアウトを精巧に設計する。
高精度で調和の取れた視覚テキスト画像を生成するために, UM-Encoderを提案する。
トレーニング中,潜伏空間とRGB空間のグリフ生成をより効果的に監視するための局所的整合性損失を提案し,モデル性能をさらに向上するための3段階トレーニング戦略を設計する。
さらに,モデルトレーニングのための多様なシーンを対象とした大規模ビジュアルテキスト画像データセットであるUM-DATA-200Kをコントリビュートする。
複数の公開ベンチマークにおける定性的および定量的な結果から,本手法が最先端の性能を実現することを示す。
関連論文リスト
- Coherent Zero-Shot Visual Instruction Generation [15.0521272616551]
本稿では,視覚的指示を生成する際の課題に対処するための,簡単な学習不要のフレームワークを提案する。
本手法は,視覚的指示が視覚的に魅力的であることを保証するために,テキスト理解と画像生成を体系的に統合する。
実験の結果,コヒーレントで視覚的な指示を可視化できることがわかった。
論文 参考訳(メタデータ) (2024-06-06T17:59:44Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。