Fugu-MT 論文翻訳(概要): Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation

論文の概要: Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation

arxiv url: http://arxiv.org/abs/2212.10313v1
Date: Tue, 20 Dec 2022 15:02:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 15:40:45.674421
Title: Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation
Title（参考訳）: beyond triplet: マルチモーダル機械翻訳に最も多いデータを活用する
Authors: Yaoming Zhu, Zewei Sun, Shanbo Cheng, Yuyang Huang, Liwei Wu, Mingxuan Wang
Abstract要約: マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。本稿では,MTのための新しい手法と新しいデータセットを確立する。
参考スコア（独自算出の注目度）: 36.12392157061968
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal machine translation (MMT) aims to improve translation quality by incorporating information from other modalities, such as vision. Previous MMT systems mainly focus on better access and use of visual information and tend to validate their methods on image-related datasets. These studies face two challenges. First, they can only utilize triple data (bilingual texts with images), which is scarce; second, current benchmarks are relatively restricted and do not correspond to realistic scenarios. Therefore, this paper correspondingly establishes new methods and new datasets for MMT. First, we propose a framework 2/3-Triplet with two new approaches to enhance MMT by utilizing large-scale non-triple data: monolingual image-text data and parallel text-only data. Second, we construct an English-Chinese {e}-commercial {m}ulti{m}odal {t}ranslation dataset (including training and testing), named EMMT, where its test set is carefully selected as some words are ambiguous and shall be translated mistakenly without the help of images. Experiments show that our method is more suitable for real-world scenarios and can significantly improve translation performance by using more non-triple data. In addition, our model also rivals various SOTA models in conventional multimodal translation benchmarks.
Abstract（参考訳）: マルチモーダル機械翻訳(MMT)は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。これらの研究は2つの課題に直面している。第一に、3つのデータ(画像付きバイリンガルテキスト)しか利用できず、第2に、現在のベンチマークは相対的に制限されており、現実的なシナリオに対応していない。そこで本稿では,MTのための新しい手法と新しいデータセットについて述べる。まず,大規模な非トリプルデータ(モノリンガル画像テキストデータと並列テキストのみのデータ)を活用することでMTの強化を図るためのフレームワーク2/3-Tripletを提案する。第二に、emmtという英語-中国語の商業用{m}ulti{m}odal {t}ranslationデータセット(訓練とテストを含む)を構築し、ある単語が曖昧であるためにテストセットを慎重に選択し、画像の助けなしに誤って翻訳する。実験の結果,本手法は実世界のシナリオに適しており,非トリプルデータを用いることで翻訳性能を大幅に向上できることがわかった。さらに,従来のマルチモーダル翻訳ベンチマークでは,様々なSOTAモデルと競合する。

関連論文リスト

PRIM: Towards Practical In-Image Multilingual Machine Translation [48.357528732061105]
In-Image Machine Translation (IIMT)は、ある言語から別の言語へのテキストを含む画像を翻訳することを目的としている。エンド・ツー・エンドIIMTの最近の研究は、単純な背景、単一のフォント、固定テキスト位置、バイリンガル翻訳を持つ合成データに頼っている。本稿では,PRIMにおける実用条件の課題に対応するために,エンドツーエンドのVisTransモデルを提案する。
論文参考訳（メタデータ） (2025-09-05T14:38:07Z)
Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文参考訳（メタデータ） (2025-04-20T16:20:30Z)
Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文参考訳（メタデータ） (2024-07-18T15:20:31Z)
3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文参考訳（メタデータ） (2024-04-29T04:01:30Z)
Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets [3.54128607634285]
実世界の翻訳データセットを活用し,視覚的モダリティが翻訳効率に与える影響について検討した。視覚的モダリティは、実際の翻訳データセットの大部分に有利であることが判明した。以上の結果から,視覚情報は多モーダル翻訳における補助的役割を担っていることが示唆された。
論文参考訳（メタデータ） (2024-04-09T08:19:10Z)
A Novel Paradigm Boosting Translation Capabilities of Large Language Models [11.537249547487045]
本論文は,一貫した単言語データを用いた二次事前学習,インターリニアテキストフォーマット文書による継続事前学習,および教師付きファインチューニングのためのソース・ランゲージ・コンスタント・インストラクションの活用という,3つの段階からなる新しいパラダイムを提案する。 Llama2モデルを用いた実験結果,特に中国語-Llama2を用いて,LLMの翻訳能力の向上を実証した。
論文参考訳（メタデータ） (2024-03-18T02:53:49Z)
Exploring Better Text Image Translation with Multimodal Codebook [39.12169843196739]
テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-27T08:41:18Z)
Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。 OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文参考訳（メタデータ） (2023-05-04T12:21:52Z)
Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文参考訳（メタデータ） (2022-12-20T10:18:18Z)
Revamping Multilingual Agreement Bidirectionally via Switched Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT) これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文参考訳（メタデータ） (2022-09-28T09:14:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。