Fugu-MT 論文翻訳(概要): Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation

論文の概要: Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation

arxiv url: http://arxiv.org/abs/2212.10140v1
Date: Tue, 20 Dec 2022 10:18:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 13:59:32.036892
Title: Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation
Title（参考訳）: 画像による曖昧さの解消:マルチモーダル機械翻訳の改善とコントラスト評価
Authors: Matthieu Futeral, Cordelia Schmid, Ivan Laptev, Beno\^it Sagot, Rachel Bawden
Abstract要約: 本稿では,ニューラルアダプターに基づく強力なテキストのみの機械翻訳手法と,新たな自己認識機構を提案する。また,不明瞭な文とその翻訳が可能なコントラスト多モーダル翻訳評価データセットであるCoMMuTEをリリースする。提案手法は,標準英語とフランス語のベンチマークにおいて,強いテキストのみのモデルに対して競合する結果を得る。
参考スコア（独自算出の注目度）: 72.6667341525552
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: One of the major challenges of machine translation (MT) is ambiguity, which can in some cases be resolved by accompanying context such as an image. However, recent work in multimodal MT (MMT) has shown that obtaining improvements from images is challenging, limited not only by the difficulty of building effective cross-modal representations but also by the lack of specific evaluation and training data. We present a new MMT approach based on a strong text-only MT model, which uses neural adapters and a novel guided self-attention mechanism and which is jointly trained on both visual masking and MMT. We also release CoMMuTE, a Contrastive Multilingual Multimodal Translation Evaluation dataset, composed of ambiguous sentences and their possible translations, accompanied by disambiguating images corresponding to each translation. Our approach obtains competitive results over strong text-only models on standard English-to-French benchmarks and outperforms these baselines and state-of-the-art MMT systems with a large margin on our contrastive test set.
Abstract（参考訳）: 機械翻訳(mt)の最大の課題の1つは曖昧さであり、画像などのコンテキストを伴って解決できる場合もある。しかし、近年のマルチモーダルMT(MMT)の研究は、画像から改善を得ることが困難なことを示しており、効果的なクロスモーダル表現を構築することの難しさだけでなく、特定の評価やトレーニングデータの欠如によって制限されている。本稿では,ニューラルアダプターと新しい自己注意機構を応用し,視覚マスキングとMTを併用した,強力なテキストのみのMTモデルに基づく新しいMT手法を提案する。また,多言語多言語翻訳評価データセットであるcommututeをリリースし,各翻訳に対応する画像の曖昧さを伴い,曖昧な文とその翻訳が可能な文からなる。提案手法は,標準の英語とフランス語のベンチマークにおいて,強いテキストのみのモデルに対して競合する結果を得た。

関連論文リスト

Beyond Many-Shot Translation: Scaling In-Context Demonstrations For Low-Resource Machine Translation [49.82863380286994]
In-context Learningは、低リソース機械翻訳にLarge Language Modelsを適用する新しい方法を提供するかもしれない。本研究では,Long-context モデルを用いた数千例のサンプルに対して,数ショット設定以上の低リソース機械翻訳ICLのスケーリングについて検討する。 JavaneseとSundaneseに関する我々の実験は、追加のコンテキストからのゲインがすばやく飽和し、最大コンテキストウィンドウの近くで分解可能であることを示している。
論文参考訳（メタデータ） (2026-02-04T17:02:22Z)
Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation [40.42326040668964]
本稿では,多モーダル大言語モデル (MLLM) に安定な拡散に基づくイマジネーションネットワークを導入し,各元文の画像を明示的に生成する。我々は、生成した画像と原文との整合性を確保するために、強化学習による人間のフィードバックを構築する。実験結果から,本モデルは既存のマルチモーダルMTとテキストのみのMTよりも優れていた。
論文参考訳（メタデータ） (2024-12-17T07:41:23Z)
Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文参考訳（メタデータ） (2024-07-18T15:20:31Z)
TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages [96.8603701943286]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。 TMTは単一モデルの性能を一貫して上回っている。
論文参考訳（メタデータ） (2024-02-25T07:46:57Z)
Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-05-23T16:56:10Z)
Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文参考訳（メタデータ） (2022-12-20T15:02:38Z)
STEMM: Self-learning with Speech-text Manifold Mixup for Speech Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。 MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文参考訳（メタデータ） (2022-03-20T01:49:53Z)
MCMI: Multi-Cycle Image Translation with Mutual Information Constraints [40.556049046897115]
教師なし画像間翻訳のための相互情報に基づくフレームワークを提案する。 MCMIアプローチでは, 単一サイクル画像翻訳モデルを, 多サイクル翻訳設定で繰り返し使用可能なモジュールとして扱う。 MCMIでトレーニングしたモデルでは,高品質な画像が生成され,セマンティックなマッピングがより学習されることを示す。
論文参考訳（メタデータ） (2020-07-06T17:50:43Z)
Unsupervised Multimodal Neural Machine Translation with Pseudo Visual Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。ソースターゲットの文を潜時空間で関連付けることは依然として困難である。異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文参考訳（メタデータ） (2020-05-06T20:11:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。