論文の概要: Adding Multimodal Capabilities to a Text-only Translation Model
- arxiv url: http://arxiv.org/abs/2403.03045v1
- Date: Tue, 5 Mar 2024 15:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 14:18:37.212152
- Title: Adding Multimodal Capabilities to a Text-only Translation Model
- Title(参考訳): テキストのみの翻訳モデルにマルチモーダル機能を追加する
- Authors: Vipin Vijayan, Braeden Bowen, Scott Grigsby, Timothy Anderson, and
Jeremy Gwinnup
- Abstract要約: マルチモーダル機械翻訳(MMT)における現在の作業は、トレーニングと評価にMulti30kデータセットを使用している。
結果のモデルがMulti30kデータセットに過度に適合していることが分かりました。
Multi30kと一般的なテキストオンリーのデータセットの両方でうまく機能するために、パフォーマンスの高いテキストオンリーの機械翻訳(MT)モデルを使用します。
- 参考スコア(独自算出の注目度): 1.6192978014459543
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: While most current work in multimodal machine translation (MMT) uses the
Multi30k dataset for training and evaluation, we find that the resulting models
overfit to the Multi30k dataset to an extreme degree. Consequently, these
models perform very badly when evaluated against typical text-only testing sets
such as the WMT newstest datasets. In order to perform well on both Multi30k
and typical text-only datasets, we use a performant text-only machine
translation (MT) model as the starting point of our MMT model. We add
vision-text adapter layers connected via gating mechanisms to the MT model, and
incrementally transform the MT model into an MMT model by 1) pre-training using
vision-based masking of the source text and 2) fine-tuning on Multi30k.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)における現在の作業のほとんどは、トレーニングと評価にMulti30kデータセットを使用しているが、結果のモデルはMulti30kデータセットに過度に適合している。
したがって、wmt newstestデータセットのような一般的なテキストのみのテストセットに対して評価した場合、これらのモデルは非常にパフォーマンスが悪くなります。
MMTモデルの出発点として,Multi30kと典型的テキスト専用データセットの両方で良好に動作するために,実行時テキスト専用機械翻訳(MT)モデルを用いる。
我々は、MTモデルにゲーティング機構を介して接続された視覚テキストアダプタ層を追加し、MTモデルをMTモデルにインクリメンタルに変換する。
1【原文の視覚に基づくマスキングによる事前学習】
2) Multi30k の微調整。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - The Case for Evaluating Multimodal Translation Models on Text Datasets [1.6192978014459543]
マルチモーダル機械翻訳モデルは、視覚情報の利用と複雑な文の翻訳能力を測定することで評価されるべきである。
MMTの現在の作業のほとんどは、これらの特性を計測しないMulti30kテストセットに対して評価されている。
我々は,1)MMTモデルによる視覚情報の利用を測定するCoMMuTE評価フレームワーク,2)複雑な文に対する翻訳性能を評価するテキストのみのWMTニュース翻訳タスクテストセット,3)Multi30kテストセットを用いて,MMTモデルの性能を実MMTデータセットに対して測定する。
論文 参考訳(メタデータ) (2024-03-05T14:49:52Z) - Incorporating Probing Signals into Multimodal Machine Translation via
Visual Question-Answering Pairs [45.41083125321069]
マルチモーダル機械翻訳(MMT)システムは、テキスト入力が完了すると視覚情報に対する感度が低下する。
ソーステキストからVQAスタイルのペアを並列に生成する手法が提案されている。
MMT-VQAマルチタスク学習フレームワークを導入し、データセットからの明示的な探索信号をMTトレーニングプロセスに組み込む。
論文 参考訳(メタデータ) (2023-10-26T04:13:49Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Machine Translation Customization via Automatic Training Data Selection
from the Web [97.98885151955467]
特定のドメインで機械翻訳システムをカスタマイズするためのアプローチについて説明します。
ターゲットとなる顧客データに似たデータを選択し、ニューラル翻訳モデルを訓練する。
最後に、自動選択したデータに基づいてMTモデルをトレーニングし、対象領域に特化したシステムを得る。
論文 参考訳(メタデータ) (2021-02-20T03:29:41Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。