論文の概要: DU-VLG: Unifying Vision-and-Language Generation via Dual
Sequence-to-Sequence Pre-training
- arxiv url: http://arxiv.org/abs/2203.09052v1
- Date: Thu, 17 Mar 2022 03:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 13:11:19.358307
- Title: DU-VLG: Unifying Vision-and-Language Generation via Dual
Sequence-to-Sequence Pre-training
- Title(参考訳): DU-VLG:デュアルシーケンス・ツー・シーケンス事前学習による視覚・言語生成の統合
- Authors: Luyang Huang, Guocheng Niu, Jiachen Liu, Xinyan Xiao, Hua Wu
- Abstract要約: シーケンス生成問題として視覚・言語生成を統一するフレームワークであるDU-VLGを提案する。
Du-VLGは、マルチモーダルな自動エンコーダタスクとモダリティ変換タスクという、新しい2つの事前訓練タスクで訓練されている。
その結果, DU-VLGは一方向生成目標を訓練した変種や, コミットメント損失を伴わない変種よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 37.15272352614968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the limitations of the model structure and pre-training objectives,
existing vision-and-language generation models cannot utilize pair-wise images
and text through bi-directional generation. In this paper, we propose DU-VLG, a
framework which unifies vision-and-language generation as sequence generation
problems. DU-VLG is trained with novel dual pre-training tasks: multi-modal
denoising autoencoder tasks and modality translation tasks. To bridge the gap
between image understanding and generation, we further design a novel
commitment loss. We compare pre-training objectives on image captioning and
text-to-image generation datasets. Results show that DU-VLG yields better
performance than variants trained with uni-directional generation objectives or
the variant without the commitment loss. We also obtain higher scores compared
to previous state-of-the-art systems on three vision-and-language generation
tasks. In addition, human judges further confirm that our model generates real
and relevant images as well as faithful and informative captions.
- Abstract(参考訳): モデル構造と事前学習目的の限界のため、既存の視覚・言語生成モデルは双方向生成ではペアワイズ画像やテキストを利用できない。
本稿では,シーケンス生成問題として視覚・言語生成を統一するフレームワークであるDU-VLGを提案する。
DU-VLGは、マルチモーダルな自動エンコーダタスクとモダリティ変換タスクという、新しい2つの事前訓練タスクで訓練されている。
イメージ理解と生成の間のギャップを埋めるため、私たちはさらに新しいコミットメント損失をデザインします。
画像キャプションとテキスト対画像生成データセットの事前学習目標を比較した。
その結果, DU-VLGは一方向生成目標を訓練した変種や, コミットメント損失を伴わない変種よりも優れた性能を示した。
また、3つの視覚・言語生成タスクにおける従来の最先端システムと比較して高いスコアを得る。
さらに,人間の判断は,本モデルが忠実で情報的なキャプションだけでなく,現実的かつ関連性の高い画像を生成することを確認する。
関連論文リスト
- Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。