論文の概要: Improving Cross-modal Alignment for Text-Guided Image Inpainting
- arxiv url: http://arxiv.org/abs/2301.11362v1
- Date: Thu, 26 Jan 2023 19:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 17:24:48.358137
- Title: Improving Cross-modal Alignment for Text-Guided Image Inpainting
- Title(参考訳): テキストガイド画像インパインティングにおけるクロスモーダルアライメントの改善
- Authors: Yucheng Zhou, Guodong Long
- Abstract要約: テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 36.1319565907582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image inpainting (TGII) aims to restore missing regions based on
a given text in a damaged image. Existing methods are based on a strong vision
encoder and a cross-modal fusion model to integrate cross-modal features.
However, these methods allocate most of the computation to visual encoding,
while light computation on modeling modality interactions. Moreover, they take
cross-modal fusion for depth features, which ignores a fine-grained alignment
between text and image. Recently, vision-language pre-trained models (VLPM),
encapsulating rich cross-modal alignment knowledge, have advanced in most
multimodal tasks. In this work, we propose a novel model for TGII by improving
cross-modal alignment (CMA). CMA model consists of a VLPM as a vision-language
encoder, an image generator and global-local discriminators. To explore
cross-modal alignment knowledge for image restoration, we introduce cross-modal
alignment distillation and in-sample distribution distillation. In addition, we
employ adversarial training to enhance the model to fill the missing region in
complicated structures effectively. Experiments are conducted on two popular
vision-language datasets. Results show that our model achieves state-of-the-art
performance compared with other strong competitors.
- Abstract(参考訳): テキスト誘導画像塗装(TGII)は、損傷画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
既存の手法は、強力な視覚エンコーダとクロスモーダルな融合モデルに基づいて、クロスモーダルな特徴を統合する。
しかし、これらの手法は視覚エンコーディングにほとんどの計算を割り当てる一方で、モダリティ相互作用のモデリングにおける軽量な計算を行う。
さらに、テキストと画像の微妙なアライメントを無視した奥行き特徴に対して、クロスモーダル融合を行う。
近年,視覚言語事前学習モデル (VLPM) は多モーダルタスクの多くにおいて,多モーダルアライメントの豊富な知識をカプセル化している。
本研究では, クロスモーダルアライメント(CMA)を改善したTGIIの新しいモデルを提案する。
CMAモデルは、視覚言語エンコーダとしてのVLPM、画像生成器、グローバルローカル識別器からなる。
画像復元のためのクロスモーダルアライメント知識を探るため,クロスモーダルアライメント蒸留とインサンプル分布蒸留を導入する。
さらに,複雑な構造の欠落領域を効果的に埋めるモデルを強化するために,敵の訓練を採用する。
2つの一般的な視覚言語データセットで実験を行う。
以上の結果から,本モデルが他の強力な競合相手と比較して最先端の性能を達成することを示す。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval [7.233106731197739]
本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。
Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
論文 参考訳(メタデータ) (2023-10-30T15:38:43Z) - MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language
Representation Learning [23.45678557013005]
そこで本研究では,細粒度マルチモーダル表現を学習するためのマスク付きマルチモーダルモデリング手法を提案する。
本手法は,画像テキスト入力において共同マスキングを行い,暗黙的および明示的の両方のターゲットを結合してマスク信号の復元を行う。
本モデルは,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚的グラウンドティングなど,さまざまな下流視覚言語タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-09T06:31:15Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition [38.08486689940946]
MNER(Multi-modal Named Entity Recognition)は多くの注目を集めている。
画像やテキスト表現などのインタラクションを,それぞれのモダリティのデータに基づいて個別に訓練することは困難である。
本稿では,画像特徴をテキスト空間に整列させるため,bf Image-bf text bf Alignments (ITA)を提案する。
論文 参考訳(メタデータ) (2021-12-13T08:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。