Fugu-MT 論文翻訳(概要): TIME: Text and Image Mutual-Translation Adversarial Networks

論文の概要: TIME: Text and Image Mutual-Translation Adversarial Networks

arxiv url: http://arxiv.org/abs/2005.13192v2
Date: Tue, 22 Dec 2020 20:46:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 09:16:02.465731
Title: TIME: Text and Image Mutual-Translation Adversarial Networks
Title（参考訳）: TIME:テキストと画像の相互翻訳対応ネットワーク
Authors: Bingchen Liu, Kunpeng Song, Yizhe Zhu, Gerard de Melo, Ahmed Elgammal
Abstract要約: テキストと画像相互変換対応ネットワーク(TIME)を提案する。 TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
参考スコア（独自算出の注目度）: 55.1298552773457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Focusing on text-to-image (T2I) generation, we propose Text and Image Mutual-Translation Adversarial Networks (TIME), a lightweight but effective model that jointly learns a T2I generator G and an image captioning discriminator D under the Generative Adversarial Network framework. While previous methods tackle the T2I problem as a uni-directional task and use pre-trained language models to enforce the image--text consistency, TIME requires neither extra modules nor pre-training. We show that the performance of G can be boosted substantially by training it jointly with D as a language model. Specifically, we adopt Transformers to model the cross-modal connections between the image features and word embeddings, and design an annealing conditional hinge loss that dynamically balances the adversarial learning. In our experiments, TIME achieves state-of-the-art (SOTA) performance on the CUB and MS-COCO dataset (Inception Score of 4.91 and Fr\'echet Inception Distance of 14.3 on CUB), and shows promising performance on MS-COCO on image captioning and downstream vision-language tasks.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)生成に着目し,T2IジェネレータGと画像キャプション識別器Dを共同で学習する軽量かつ効果的なモデルであるテキスト・画像相互変換対応ネットワーク(TIME)を提案する。以前のメソッドは、一方向タスクとしてT2I問題に取り組み、事前トレーニングされた言語モデルを使用して画像の一貫性を強制するが、TIMEは追加モジュールも事前トレーニングも必要としない。言語モデルとしてDと共同で学習することでGの性能を大幅に向上させることができることを示す。具体的には,画像特徴と単語埋め込み間のクロスモーダル接続をモデル化するトランスフォーマティブを採用し,逆学習を動的にバランスさせるアニーリング条件付きヒンジ損失を設計する。実験では,CUBおよびMS-COCOデータセット上でのSOTA(Inception Score of 4.91とFr\echet Inception Distance of 14.3)の性能を達成し,画像キャプションおよび下流視覚言語タスクにおいてMS-COCOに有望な性能を示す。

関連論文リスト

Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。 T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。 MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文参考訳（メタデータ） (2025-06-12T11:09:49Z)
A Framework For Image Synthesis Using Supervised Contrastive Learning [14.016543383212706]
テキスト・ツー・イメージ(T2I)生成は、テキスト記述に対応する現実的な画像を作成することを目的としている。本稿では,ラベルガイド付き教師付きコントラスト学習による内部モーダル対応と内部モーダル対応の両面を活用したフレームワークを提案する。我々は、単一オブジェクトデータセットCUBと多オブジェクトデータセットCOCOの2つの新しいT2I GANのフレームワークを実証する。
論文参考訳（メタデータ） (2024-12-05T08:15:37Z)
FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文参考訳（メタデータ） (2024-08-02T04:13:38Z)
Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-03T08:15:39Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文参考訳（メタデータ） (2022-05-27T17:03:38Z)
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文参考訳（メタデータ） (2022-04-15T12:34:47Z)
ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文参考訳（メタデータ） (2021-12-31T03:53:33Z)
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文参考訳（メタデータ） (2021-11-19T03:23:10Z)
Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文参考訳（メタデータ） (2021-04-01T15:48:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。