論文の概要: Visual Agreement Regularized Training for Multi-Modal Machine
Translation
- arxiv url: http://arxiv.org/abs/1912.12014v1
- Date: Fri, 27 Dec 2019 07:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 00:06:01.434907
- Title: Visual Agreement Regularized Training for Multi-Modal Machine
Translation
- Title(参考訳): マルチモーダル機械翻訳のための視覚合意正規化訓練
- Authors: Pengcheng Yang, Boxing Chen, Pei Zhang, Xu Sun
- Abstract要約: マルチモーダル機械翻訳は、ペア画像の存在下で、ソース文を別の言語に翻訳することを目的としている。
視覚情報をよりよく活用するために、この研究は、視覚的コンセンサスを規則化されたトレーニングとして提示する。
提案手法は、ソース・ツー・ターゲットとターゲット・ツー・ソースの翻訳モデルを共同で訓練し、視覚情報に同じ焦点を移すことを奨励する。
- 参考スコア(独自算出の注目度): 39.94687063888919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal machine translation aims at translating the source sentence into
a different language in the presence of the paired image. Previous work
suggests that additional visual information only provides dispensable help to
translation, which is needed in several very special cases such as translating
ambiguous words. To make better use of visual information, this work presents
visual agreement regularized training. The proposed approach jointly trains the
source-to-target and target-to-source translation models and encourages them to
share the same focus on the visual information when generating semantically
equivalent visual words (e.g. "ball" in English and "ballon" in French).
Besides, a simple yet effective multi-head co-attention model is also
introduced to capture interactions between visual and textual features. The
results show that our approaches can outperform competitive baselines by a
large margin on the Multi30k dataset. Further analysis demonstrates that the
proposed regularized training can effectively improve the agreement of
attention on the image, leading to better use of visual information.
- Abstract(参考訳): マルチモーダル機械翻訳は、ペア画像の存在下で、ソース文を別の言語に翻訳することを目的としている。
以前の研究は、追加の視覚情報が翻訳に役立ち、曖昧な単語の翻訳のような特別なケースで必要とされることを示唆している。
視覚情報をよりよく利用するために,本研究は視覚合意正規化トレーニングを提案する。
提案手法は、ソース・トゥ・ターゲットとターゲット・トゥ・ソースの翻訳モデルを共同で訓練し、意味論的に等価な視覚的単語(例えば、英語で"ball"、フランス語で"ballon")を生成する際に、視覚的情報に同じ焦点を移すことを促す。
さらに、視覚的特徴とテキスト的特徴の相互作用を捉えるために、シンプルで効果的なマルチヘッドコアテンションモデルも導入された。
その結果,当社のアプローチは,競合ベースラインを,マルチ30kデータセットにおいて大きなマージンで上回ることができることがわかった。
さらに, 画像に対する注意の一致を効果的に改善でき, 視覚情報の利用が向上することを示す。
関連論文リスト
- Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning [2.401993998791928]
本稿では、モダリティを接続するための軽量な視覚言語マッピングネットワークを訓練するフレームワークを提案する。
視覚的関連性やストーリー情報性も向上するマルチモーダルなコントラスト目標を提案する。
論文 参考訳(メタデータ) (2024-08-12T16:15:32Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Generalization algorithm of multimodal pre-training model based on
graph-text self-supervised training [0.0]
自己指導型トレーニングのためのマルチモーダル事前学習アルゴリズムを提案する。
フィルタ情報を用いて微調整を行う場合,グローバル音声データセットの翻訳効果は,ベースラインよりも0.5BLEU高いことがわかった。
論文 参考訳(メタデータ) (2023-02-16T03:34:08Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。