Fugu-MT 論文翻訳(概要): m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt

論文の概要: m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt

arxiv url: http://arxiv.org/abs/2403.17556v1
Date: Tue, 26 Mar 2024 10:04:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 15:57:01.639603
Title: m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt
Title（参考訳）: m3P:マルチモーダルプロンプトによるマルチモーダル多言語翻訳を目指して
Authors: Jian Yang, Hongcheng Guo, Yuwei Yin, Jiaqi Bai, Bing Wang, Jiaheng Liu, Xinnian Liang, Linzheng Cahi, Liqun Yang, Zhoujun Li,
Abstract要約: マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
参考スコア（独自算出の注目度）: 39.2728779674405
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multilingual translation supports multiple translation directions by projecting all languages in a shared space, but the translation quality is undermined by the difference between languages in the text-only modality, especially when the number of languages is large. To bridge this gap, we introduce visual context as the universal language-independent representation to facilitate multilingual translation. In this paper, we propose a framework to leverage the multimodal prompt to guide the Multimodal Multilingual neural Machine Translation (m3P), which aligns the representations of different languages with the same meaning and generates the conditional vision-language memory for translation. We construct a multilingual multimodal instruction dataset (InstrMulti102) to support 102 languages. Our method aims to minimize the representation distance of different languages by regarding the image as a central language. Experimental results show that m3P outperforms previous text-only baselines and multilingual multimodal methods by a large margin. Furthermore, the probing experiments validate the effectiveness of our method in enhancing translation under the low-resource and massively multilingual scenario.
Abstract（参考訳）: 多言語翻訳は、共有空間に全ての言語を投影することで、複数の翻訳方向をサポートするが、翻訳品質は、特に言語数が大きければ、テキストのみのモダリティにおける言語の違いによって損なわれる。このギャップを埋めるために、多言語翻訳を容易にする汎用言語非依存表現として視覚的コンテキストを導入する。本稿では,マルチモーダル型多言語ニューラル・マシン・トランスフォーメーション(m3P)の指導にマルチモーダル・プロンプトを活用するフレームワークを提案する。 102言語をサポートする多言語マルチモーダル命令データセット(InstrMulti102)を構築した。本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。さらに,低リソース・多言語シナリオ下での翻訳向上における提案手法の有効性を検証した。

関連論文リスト

Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文参考訳（メタデータ） (2024-06-04T17:56:28Z)
LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。 7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文参考訳（メタデータ） (2022-10-19T12:21:39Z)
Large-scale Bilingual Language-Image Contrastive Learning [17.19890778916312]
我々は11億枚の画像テキストペア(韓国語7800万、英語476万)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文参考訳（メタデータ） (2022-03-28T03:02:03Z)
xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。確立された英語GQAデータセットを7言語に拡張する。本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-09-13T15:58:21Z)
Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文参考訳（メタデータ） (2021-09-01T09:32:06Z)
M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training [119.16007395162431]
M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。我々は,M3Pが英語に匹敵する結果が得られることを示す。
論文参考訳（メタデータ） (2020-06-04T03:54:29Z)
Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3～4%の性能評価を行った。
論文参考訳（メタデータ） (2020-04-09T01:03:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。