論文の概要: A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation
- arxiv url: http://arxiv.org/abs/2306.07198v1
- Date: Mon, 12 Jun 2023 15:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 13:50:52.032485
- Title: A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation
- Title(参考訳): マルチモーダル機械翻訳のレンズからの視覚言語事前学習に関する調査
- Authors: Jeremy Gwinnup and Kevin Duh
- Abstract要約: 本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
- 参考スコア(独自算出の注目度): 13.426403221815063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models such as BERT and the GPT series started a paradigm
shift that calls for building general-purpose models via pre-training on large
datasets, followed by fine-tuning on task-specific datasets. There is now a
plethora of large pre-trained models for Natural Language Processing and
Computer Vision. Recently, we have seen rapid developments in the joint
Vision-Language space as well, where pre-trained models such as CLIP (Radford
et al., 2021) have demonstrated improvements in downstream tasks like image
captioning and visual question answering. However, surprisingly there is
comparatively little work on exploring these models for the task of multimodal
machine translation, where the goal is to leverage image/video modality in
text-to-text translation. To fill this gap, this paper surveys the landscape of
language-and-vision pre-training from the lens of multimodal machine
translation. We summarize the common architectures, pre-training objectives,
and datasets from literature and conjecture what further is needed to make
progress on multimodal machine translation.
- Abstract(参考訳): BERTやGPTシリーズのような大規模言語モデルは、大規模なデータセットで事前トレーニングを行い、タスク固有のデータセットを微調整することで汎用モデルを構築するためのパラダイムシフトを開始した。
現在、自然言語処理とコンピュータビジョンのための訓練済みの大規模なモデルが多数存在する。
近年,clip (radford et al., 2021) のような事前学習されたモデルが,画像キャプションや視覚的質問応答といった下流タスクの改善を実演した,共同視覚言語分野の急速な発展が見られる。
しかし、驚くことに、マルチモーダル機械翻訳のタスクでは、これらのモデルを探索する作業が比較的少なく、テキスト間翻訳で画像/ビデオのモダリティを活用することが目標となっている。
このギャップを埋めるために,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況を調査した。
我々は,共通アーキテクチャ,事前学習目標,データセットを文献から要約し,マルチモーダル機械翻訳の進展に何が必要か推測する。
関連論文リスト
- CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for
Multimodal Machine Translation [31.911593690549633]
マルチモーダル機械翻訳(MMT)システムは、視覚的知識でニューラルネットワーク翻訳(NMT)を強化する。
注釈付き多言語視覚言語データが不足しているため、従来の作業は、強力なMTTモデルをゼロからトレーニングする際の課題に直面していた。
独立に訓練されたマルチモーダルM-CLIPと多言語mBARTを適応させるCLIPTransを提案する。
論文 参考訳(メタデータ) (2023-08-29T11:29:43Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - Vision-and-Language Pretraining [19.903012955284698]
本稿では,現代V&L事前学習モデルの総合的な改訂について述べる。
特に、最先端のビジョン・アンド・ランゲージ事前学習モデルの要約とともに、事前学習アプローチの分類とデライン化を行う。
論文 参考訳(メタデータ) (2022-07-05T02:18:49Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - A Survey of Vision-Language Pre-Trained Models [41.323956143107644]
事前訓練されたモデルは近年、ブレークネックペースで進歩している。
ビジョン・アンド・ランゲージ学習の分野に事前学習を適応させ、下流タスクのパフォーマンスを向上させる方法は、マルチモーダル学習の焦点となる。
論文 参考訳(メタデータ) (2022-02-18T15:15:46Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Cross-lingual Visual Pre-training for Multimodal Machine Translation [36.4592103797139]
我々は、言語間および視覚的事前学習法を組み合わせて、言語間表現を学習する。
マルチモーダル機械翻訳のための微調整を行うと、これらのモデルが最先端の性能を得ることを示す。
論文 参考訳(メタデータ) (2021-01-25T12:46:41Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。