論文の概要: Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation
- arxiv url: http://arxiv.org/abs/2212.10313v2
- Date: Sun, 3 Sep 2023 03:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 07:05:32.754797
- Title: Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation
- Title(参考訳): beyond triplet: マルチモーダル機械翻訳に最も多いデータを活用する
- Authors: Yaoming Zhu, Zewei Sun, Shanbo Cheng, Luyang Huang, Liwei Wu, Mingxuan
Wang
- Abstract要約: マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
- 参考スコア(独自算出の注目度): 53.342921374639346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal machine translation (MMT) aims to improve translation quality by
incorporating information from other modalities, such as vision. Previous MMT
systems mainly focus on better access and use of visual information and tend to
validate their methods on image-related datasets. These studies face two
challenges. First, they can only utilize triple data (bilingual texts with
images), which is scarce; second, current benchmarks are relatively restricted
and do not correspond to realistic scenarios. Therefore, this paper
correspondingly establishes new methods and new datasets for MMT. First, we
propose a framework 2/3-Triplet with two new approaches to enhance MMT by
utilizing large-scale non-triple data: monolingual image-text data and parallel
text-only data. Second, we construct an English-Chinese {e}-commercial
{m}ulti{m}odal {t}ranslation dataset (including training and testing), named
EMMT, where its test set is carefully selected as some words are ambiguous and
shall be translated mistakenly without the help of images. Experiments show
that our method is more suitable for real-world scenarios and can significantly
improve translation performance by using more non-triple data. In addition, our
model also rivals various SOTA models in conventional multimodal translation
benchmarks.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
これらの研究は2つの課題に直面している。
第一に、3つのデータ(画像付きバイリンガルテキスト)しか利用できず、第2に、現在のベンチマークは相対的に制限されており、現実的なシナリオに対応していない。
そこで本稿では,MTのための新しい手法と新しいデータセットについて述べる。
まず,大規模な非トリプルデータ(モノリンガル画像テキストデータと並列テキストのみのデータ)を活用することでMTの強化を図るためのフレームワーク2/3-Tripletを提案する。
第二に、emmtという英語-中国語の商業用{m}ulti{m}odal {t}ranslationデータセット(訓練とテストを含む)を構築し、ある単語が曖昧であるためにテストセットを慎重に選択し、画像の助けなしに誤って翻訳する。
実験の結果,本手法は実世界のシナリオに適しており,非トリプルデータを用いることで翻訳性能を大幅に向上できることがわかった。
さらに,従来のマルチモーダル翻訳ベンチマークでは,様々なSOTAモデルと競合する。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets [3.54128607634285]
実世界の翻訳データセットを活用し,視覚的モダリティが翻訳効率に与える影響について検討した。
視覚的モダリティは、実際の翻訳データセットの大部分に有利であることが判明した。
以上の結果から,視覚情報は多モーダル翻訳における補助的役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T08:19:10Z) - A Novel Paradigm Boosting Translation Capabilities of Large Language Models [11.537249547487045]
本論文は,一貫した単言語データを用いた二次事前学習,インターリニアテキストフォーマット文書による継続事前学習,および教師付きファインチューニングのためのソース・ランゲージ・コンスタント・インストラクションの活用という,3つの段階からなる新しいパラダイムを提案する。
Llama2モデルを用いた実験結果,特に中国語-Llama2を用いて,LLMの翻訳能力の向上を実証した。
論文 参考訳(メタデータ) (2024-03-18T02:53:49Z) - Exploring Better Text Image Translation with Multimodal Codebook [39.12169843196739]
テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。
本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。
そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。
本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T08:41:18Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。