Fugu-MT 論文翻訳(概要): Impact of Visual Context on Noisy Multimodal NMT: An Empirical Study for English to Indian Languages

論文の概要: Impact of Visual Context on Noisy Multimodal NMT: An Empirical Study for English to Indian Languages

arxiv url: http://arxiv.org/abs/2308.16075v1
Date: Wed, 30 Aug 2023 14:52:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-31 13:04:40.995256
Title: Impact of Visual Context on Noisy Multimodal NMT: An Empirical Study for English to Indian Languages
Title（参考訳）: 雑音型マルチモーダルNMTにおける視覚的文脈の影響:インド語に対する英語の実証的研究
Authors: Baban Gain, Dibyanayan Bandyopadhyay, Samrat Mukherjee, Chandranath Adak, Asif Ekbal
Abstract要約: ニューラルネットワーク翻訳(NMT)におけるマルチモーダル情報の利用の有効性について検討した。驚くべきことに、この研究は、この文脈で画像が冗長であることを発見した。実験はヒンディー語、ベンガル語、マラヤラム語に翻訳され、最先端のベンチマークを大きく上回っている。
参考スコア（独自算出の注目度）: 29.416563233407892
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The study investigates the effectiveness of utilizing multimodal information in Neural Machine Translation (NMT). While prior research focused on using multimodal data in low-resource scenarios, this study examines how image features impact translation when added to a large-scale, pre-trained unimodal NMT system. Surprisingly, the study finds that images might be redundant in this context. Additionally, the research introduces synthetic noise to assess whether images help the model deal with textual noise. Multimodal models slightly outperform text-only models in noisy settings, even with random images. The study's experiments translate from English to Hindi, Bengali, and Malayalam, outperforming state-of-the-art benchmarks significantly. Interestingly, the effect of visual context varies with source text noise: no visual context works best for non-noisy translations, cropped image features are optimal for low noise, and full image features work better in high-noise scenarios. This sheds light on the role of visual context, especially in noisy settings, opening up a new research direction for Noisy Neural Machine Translation in multimodal setups. The research emphasizes the importance of combining visual and textual information for improved translation in various environments.
Abstract（参考訳）: ニューラルマシン翻訳(nmt)におけるマルチモーダル情報の有効性について検討した。本研究は,低リソースシナリオにおけるマルチモーダルデータの利用に着目し,大規模かつ事前学習されたNMTシステムに付加された画像特徴が翻訳に与える影響について検討する。驚くべきことに、この状況では画像は冗長かもしれない。さらに、画像がテキストノイズを扱うのに役立つかどうかを評価するために合成ノイズを導入する。マルチモーダルモデルは、ランダムな画像であっても、ノイズの多い設定でテキストのみモデルをわずかに上回る。この研究の実験は英語からヒンディー語、ベンガル語、マラヤラム語に翻訳され、最先端のベンチマークを大きく上回っている。視覚コンテクストの効果は、ソースのテキストノイズによって異なる: 視覚コンテクストは、ノイズのない翻訳に最適ではなく、切り抜かれた画像機能は低ノイズに最適であり、高ノイズシナリオではフルイメージ機能はよりうまく機能する。これは、特にノイズの多い環境での視覚的なコンテキストの役割に光を当て、マルチモーダルなセットアップでノイズの多いニューラルマシン翻訳の新しい研究方向を開く。本研究は,様々な環境における翻訳改善のための視覚情報とテキスト情報を組み合わせることの重要性を強調する。

関連論文リスト

M2DF: Multi-grained Multi-curriculum Denoising Framework for Multimodal Aspect-based Sentiment Analysis [32.9772577419091]
マルチモーダルAspect-based Sentiment Analysis (MABSA) はきめ細かな感性分析タスクである。トレーニングデータの順序を調整することで,マルチグラニュアルなマルチキュリキュラム・デノナイジング・フレームワーク(M2DF)を提案する。当社のフレームワークは,MABSAの3つのサブタスクにおける最先端の作業よりも一貫して優れています。
論文参考訳（メタデータ） (2023-10-23T06:22:39Z)
Towards Better Multi-modal Keyphrase Generation via Visual Entity Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文参考訳（メタデータ） (2023-09-09T09:41:36Z)
Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。 DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文参考訳（メタデータ） (2023-07-19T17:47:12Z)
Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文参考訳（メタデータ） (2023-05-20T18:17:20Z)
Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文参考訳（メタデータ） (2022-08-26T09:32:24Z)
Multimodal Neural Machine Translation with Search Engine Based Image Retrieval [4.662583832063716]
バイリンガルパラレルコーパスのための記述画像収集のためのオープン語彙画像検索手法を提案する。提案手法は,強いベースラインに対する大幅な改善を実現する。
論文参考訳（メタデータ） (2022-07-26T08:42:06Z)
Neural Machine Translation with Phrase-Level Universal Visual Representations [11.13240570688547]
既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (2022-03-19T11:21:13Z)
Integrating Visuospatial, Linguistic and Commonsense Structure into Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文参考訳（メタデータ） (2021-10-21T00:16:02Z)
Vision Matters When It Should: Sanity Checking Multimodal Machine Translation Models [25.920891392933058]
マルチモーダル機械翻訳(MMT)システムは、視覚的コンテキストが利用できる場合、テキストのみのニューラルネットワーク翻訳(NMT)よりも優れていることが示されている。近年の研究では、MMTモデルの性能は、関連画像が非関連画像やノイズに置き換えられた場合にのみ、限界的に影響を受けることが示されている。
論文参考訳（メタデータ） (2021-09-08T03:32:48Z)
MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2020-10-12T00:43:52Z)
Simultaneous Machine Translation with Visual Context [42.88121241096681]
同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。我々は、様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
論文参考訳（メタデータ） (2020-09-15T18:19:11Z)
Unsupervised Multimodal Neural Machine Translation with Pseudo Visual Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。ソースターゲットの文を潜時空間で関連付けることは依然として困難である。異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文参考訳（メタデータ） (2020-05-06T20:11:46Z)
Robust Unsupervised Neural Machine Translation with Adversarial Denoising Training [66.39561682517741]
unsupervised neural machine translation (UNMT) は機械翻訳コミュニティに大きな関心を集めている。 UNMTの主な利点は、必要な大規模な訓練用テキストの簡単な収集にある。本稿では,UNMT ベースのシステムのロバスト性を改善するため,まずノイズを考慮に入れた。
論文参考訳（メタデータ） (2020-02-28T05:17:55Z)
Informative Sample Mining Network for Multi-Domain Image-to-Image Translation [101.01649070998532]
本稿では,画像から画像への翻訳作業において,サンプル選択戦略の改善が有効であることを示す。本稿では,サンプルの硬さを抑えつつ,サンプルの硬さを抑えるための新しい多段階サンプルトレーニング手法を提案する。
論文参考訳（メタデータ） (2020-01-05T05:48:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。