論文の概要: TIME: Text and Image Mutual-Translation Adversarial Networks
- arxiv url: http://arxiv.org/abs/2005.13192v2
- Date: Tue, 22 Dec 2020 20:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 09:16:02.465731
- Title: TIME: Text and Image Mutual-Translation Adversarial Networks
- Title(参考訳): TIME:テキストと画像の相互翻訳対応ネットワーク
- Authors: Bingchen Liu, Kunpeng Song, Yizhe Zhu, Gerard de Melo, Ahmed Elgammal
- Abstract要約: テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
- 参考スコア(独自算出の注目度): 55.1298552773457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Focusing on text-to-image (T2I) generation, we propose Text and Image
Mutual-Translation Adversarial Networks (TIME), a lightweight but effective
model that jointly learns a T2I generator G and an image captioning
discriminator D under the Generative Adversarial Network framework. While
previous methods tackle the T2I problem as a uni-directional task and use
pre-trained language models to enforce the image--text consistency, TIME
requires neither extra modules nor pre-training. We show that the performance
of G can be boosted substantially by training it jointly with D as a language
model. Specifically, we adopt Transformers to model the cross-modal connections
between the image features and word embeddings, and design an annealing
conditional hinge loss that dynamically balances the adversarial learning. In
our experiments, TIME achieves state-of-the-art (SOTA) performance on the CUB
and MS-COCO dataset (Inception Score of 4.91 and Fr\'echet Inception Distance
of 14.3 on CUB), and shows promising performance on MS-COCO on image captioning
and downstream vision-language tasks.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成に着目し,T2IジェネレータGと画像キャプション識別器Dを共同で学習する軽量かつ効果的なモデルであるテキスト・画像相互変換対応ネットワーク(TIME)を提案する。
以前のメソッドは、一方向タスクとしてT2I問題に取り組み、事前トレーニングされた言語モデルを使用して画像の一貫性を強制するが、TIMEは追加モジュールも事前トレーニングも必要としない。
言語モデルとしてDと共同で学習することでGの性能を大幅に向上させることができることを示す。
具体的には,画像特徴と単語埋め込み間のクロスモーダル接続をモデル化するトランスフォーマティブを採用し,逆学習を動的にバランスさせるアニーリング条件付きヒンジ損失を設計する。
実験では,CUBおよびMS-COCOデータセット上でのSOTA(Inception Score of 4.91とFr\echet Inception Distance of 14.3)の性能を達成し,画像キャプションおよび下流視覚言語タスクにおいてMS-COCOに有望な性能を示す。
関連論文リスト
- FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。
本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-02T04:13:38Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。