論文の概要: GIIFT: Graph-guided Inductive Image-free Multimodal Machine Translation
- arxiv url: http://arxiv.org/abs/2507.18562v1
- Date: Thu, 24 Jul 2025 16:36:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.125144
- Title: GIIFT: Graph-guided Inductive Image-free Multimodal Machine Translation
- Title(参考訳): GIIFT: グラフ誘導インダクティブ・インダクティブ・インダクティブ・マルチモーダル・マシン翻訳
- Authors: Jiafeng Xiong, Yuting Zhao,
- Abstract要約: 我々は,モダリティ固有の情報を保存・統合するために,新しいマルチモーダルシーングラフを構築した。
グラフ誘導インダクティブ・インダクティブ・イメージ・フリー・MTフレームワークであるGIIFTを紹介する。
WMTベンチマークの結果は、画像のない翻訳ベースラインよりも大幅に改善された。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Machine Translation (MMT) has demonstrated the significant help of visual information in machine translation. However, existing MMT methods face challenges in leveraging the modality gap by enforcing rigid visual-linguistic alignment whilst being confined to inference within their trained multimodal domains. In this work, we construct novel multimodal scene graphs to preserve and integrate modality-specific information and introduce GIIFT, a two-stage Graph-guided Inductive Image-Free MMT framework that uses a cross-modal Graph Attention Network adapter to learn multimodal knowledge in a unified fused space and inductively generalize it to broader image-free translation domains. Experimental results on the Multi30K dataset of English-to-French and English-to-German tasks demonstrate that our GIIFT surpasses existing approaches and achieves the state-of-the-art, even without images during inference. Results on the WMT benchmark show significant improvements over the image-free translation baselines, demonstrating the strength of GIIFT towards inductive image-free inference.
- Abstract(参考訳): マルチモーダル機械翻訳 (MMT) は, 機械翻訳における視覚情報の有用性を実証している。
しかし、既存のMT法は、訓練されたマルチモーダル領域内での推論に制限される一方で、厳密な視覚言語的アライメントを強制することで、モダリティギャップを利用する際の課題に直面している。
本研究では、モダリティ固有の情報を保存・統合するための新しいマルチモーダルシーングラフを構築し、GIIFTという2段階のグラフ誘導インダクティブ・インダクティブ・イメージ・フリーMTフレームワークを導入する。
英語-フランス語-英語-ドイツ語タスクのMulti30Kデータセットの実験結果は、GIIFTが既存のアプローチを超越し、推論中に画像がなくても最先端の処理を実現していることを示している。
WMTベンチマークの結果は、画像のない翻訳ベースラインよりも大幅に改善され、GIIFTのインダクティブな画像のない推論への強みが示された。
関連論文リスト
- Dual-branch Prompting for Multimodal Machine Translation [9.903997553625253]
本稿では,D2P-MMTを提案する。D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT)。
D2P-MMTは、事前学習した拡散モデルによって生成されたソーステキストと再構成画像のみを必要とする。
Multi30Kデータセットの実験により、D2P-MMTは既存の最先端手法よりも優れた翻訳性能が得られることが示された。
論文 参考訳(メタデータ) (2025-07-23T15:22:51Z) - Multimodal Machine Translation with Visual Scene Graph Pruning [31.85382347738067]
マルチモーダル機械翻訳(MMT)は、視覚情報を組み込んだ翻訳作業において、言語多義性やあいまいさによって生じる課題に対処しようとするものである。
視覚的なScene Graph Pruning(PSG)を用いたマルチモーダル機械翻訳について紹介する。
PSGは、言語シーングラフ情報を活用して、視覚シーングラフにおける冗長ノードのプルーニングを誘導し、下流翻訳タスクにおけるノイズを低減する。
論文 参考訳(メタデータ) (2025-05-26T04:35:03Z) - Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation [40.42326040668964]
本稿では,多モーダル大言語モデル (MLLM) に安定な拡散に基づくイマジネーションネットワークを導入し,各元文の画像を明示的に生成する。
我々は、生成した画像と原文との整合性を確保するために、強化学習による人間のフィードバックを構築する。
実験結果から,本モデルは既存のマルチモーダルMTとテキストのみのMTよりも優れていた。
論文 参考訳(メタデータ) (2024-12-17T07:41:23Z) - TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages [92.86083489187403]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。