論文の概要: CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for
Multimodal Machine Translation
- arxiv url: http://arxiv.org/abs/2308.15226v1
- Date: Tue, 29 Aug 2023 11:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 14:28:27.498362
- Title: CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for
Multimodal Machine Translation
- Title(参考訳): CLIPTrans:マルチモーダル機械翻訳のための事前学習モデルによる視覚的知識の伝達
- Authors: Devaansh Gupta, Siddhant Kharbanda, Jiawei Zhou, Wanhua Li, Hanspeter
Pfister, Donglai Wei
- Abstract要約: マルチモーダル機械翻訳(MMT)システムは、視覚的知識でニューラルネットワーク翻訳(NMT)を強化する。
注釈付き多言語視覚言語データが不足しているため、従来の作業は、強力なMTTモデルをゼロからトレーニングする際の課題に直面していた。
独立に訓練されたマルチモーダルM-CLIPと多言語mBARTを適応させるCLIPTransを提案する。
- 参考スコア(独自算出の注目度): 31.911593690549633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a growing interest in developing multimodal machine
translation (MMT) systems that enhance neural machine translation (NMT) with
visual knowledge. This problem setup involves using images as auxiliary
information during training, and more recently, eliminating their use during
inference. Towards this end, previous works face a challenge in training
powerful MMT models from scratch due to the scarcity of annotated multilingual
vision-language data, especially for low-resource languages. Simultaneously,
there has been an influx of multilingual pre-trained models for NMT and
multimodal pre-trained models for vision-language tasks, primarily in English,
which have shown exceptional generalisation ability. However, these are not
directly applicable to MMT since they do not provide aligned multimodal
multilingual features for generative tasks. To alleviate this issue, instead of
designing complex modules for MMT, we propose CLIPTrans, which simply adapts
the independently pre-trained multimodal M-CLIP and the multilingual mBART. In
order to align their embedding spaces, mBART is conditioned on the M-CLIP
features by a prefix sequence generated through a lightweight mapping network.
We train this in a two-stage pipeline which warms up the model with image
captioning before the actual translation task. Through experiments, we
demonstrate the merits of this framework and consequently push forward the
state-of-the-art across standard benchmarks by an average of +2.67 BLEU. The
code can be found at www.github.com/devaansh100/CLIPTrans.
- Abstract(参考訳): 視覚的知識でニューラルマシン翻訳(NMT)を強化するマルチモーダル機械翻訳(MMT)システムの開発への関心が高まっている。
この問題の設定では、トレーニング中に画像を補助情報として使用し、最近では推論中にその使用を廃止する。
この目的に向けて、以前の作品は、特に低リソース言語のための、注釈付き多言語視覚言語データの不足のため、強力なmmtモデルをスクラッチからトレーニングする上での課題に直面している。
同時に、NMTのための多言語事前学習モデルや、視覚言語タスクのための多モーダル事前学習モデルが流入しており、特に英語では例外的な一般化能力を示している。
しかし、これらは生成タスクに整列したマルチモーダルな多言語機能を提供していないため、MTMには直接適用されない。
この問題を軽減するために,MMT の複雑なモジュールを設計する代わりに,独立に事前訓練されたマルチモーダル M-CLIP と多言語 mBART を適応した CLIPTrans を提案する。
埋め込み空間を整列させるために、mBARTは、軽量マッピングネットワークを通じて生成されたプレフィックスシーケンスによってM-CLIP特徴に条件付けされる。
これを2段階のパイプラインでトレーニングし、実際の翻訳タスクの前にイメージキャプションでモデルをウォームアップする。
実験を通じて、このフレームワークの利点を実証し、その結果、平均+2.67 BLEUで標準ベンチマークの最先端を推し進める。
コードはwww.github.com/devaansh100/CLIPTransで参照できる。
関連論文リスト
- EMMeTT: Efficient Multimodal Machine Translation Training [26.295981183965566]
自動音声翻訳(AST)を含む音声-LLMのマルチモーダル共同学習方式を提案する。
共同マルチモーダルトレーニングを扱うために,EMMeTTと呼ばれる新しいトレーニングフレームワークを提案する。
結果、多モーダル翻訳モデルでは、強いテキストと音声の翻訳結果を同時に生成する。
論文 参考訳(メタデータ) (2024-09-20T14:03:23Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Dynamic Context-guided Capsule Network for Multimodal Machine
Translation [131.37130887834667]
マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。
MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。
英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
論文 参考訳(メタデータ) (2020-09-04T06:18:24Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。