論文の概要: Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation
- arxiv url: http://arxiv.org/abs/2412.12627v1
- Date: Tue, 17 Dec 2024 07:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:36.247330
- Title: Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation
- Title(参考訳): マルチモーダル機械翻訳のための安定拡散型ビジュアルイマジネーション
- Authors: Andong Chen, Yuchen Song, Kehai Chen, Muyun Yang, Tiejun Zhao, Min Zhang,
- Abstract要約: 本稿では,多モーダル大言語モデル (MLLM) に安定な拡散に基づくイマジネーションネットワークを導入し,各元文の画像を明示的に生成する。
我々は、生成した画像と原文との整合性を確保するために、強化学習による人間のフィードバックを構築する。
実験結果から,本モデルは既存のマルチモーダルMTとテキストのみのMTよりも優れていた。
- 参考スコア(独自算出の注目度): 40.42326040668964
- License:
- Abstract: Visual information has been introduced for enhancing machine translation (MT), and its effectiveness heavily relies on the availability of large amounts of bilingual parallel sentence pairs with manual image annotations. In this paper, we introduce a stable diffusion-based imagination network into a multimodal large language model (MLLM) to explicitly generate an image for each source sentence, thereby advancing the multimodel MT. Particularly, we build heuristic human feedback with reinforcement learning to ensure the consistency of the generated image with the source sentence without the supervision of image annotation, which breaks the bottleneck of using visual information in MT. Furthermore, the proposed method enables imaginative visual information to be integrated into large-scale text-only MT in addition to multimodal MT. Experimental results show that our model significantly outperforms existing multimodal MT and text-only MT, especially achieving an average improvement of more than 14 BLEU points on Multi30K multimodal MT benchmarks.
- Abstract(参考訳): 機械翻訳(MT)の強化のために視覚情報が導入されており、その効果は大量のバイリンガル並列文対と手動画像アノテーションの可用性に大きく依存している。
本稿では,Multi-30Kal MT のベンチマークにおいて,既存のマルチモーダルMT やテキストのみのMT を著しく上回り,特に14点以上のBLEU 点を平均的に向上させることによって,MT の視覚的情報利用のボトルネックを突破する画像アノテーションの監督なしに,生成した画像と原文との整合性を確保するためのヒューリスティックな人的フィードバックを構築することを目的として,Multi-30Kal MT のベンチマークにおいて,このモデルが既存のマルチモーダルMT やテキストのみのMT よりも優れていることを示す。
関連論文リスト
- MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Good for Misconceived Reasons: An Empirical Revisiting on the Need for
Visual Context in Multimodal Machine Translation [41.50096802992405]
ニューラルマルチモーダル機械翻訳(MMT)システムは,従来のテキストのみの翻訳モデルを多モーダル情報で拡張することにより,より良い翻訳を実現することを目的としている。
我々は、2つの解釈可能なMTモデルを考案し、MTにおけるマルチモーダル情報の貢献を再考する。
テキストのみに対するマルチモーダルモデルによる改善は、実際に正規化効果の結果であることが判明した。
論文 参考訳(メタデータ) (2021-05-30T08:27:16Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。