論文の概要: Multimodal Machine Translation with Visual Scene Graph Pruning
- arxiv url: http://arxiv.org/abs/2505.19507v1
- Date: Mon, 26 May 2025 04:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.175099
- Title: Multimodal Machine Translation with Visual Scene Graph Pruning
- Title(参考訳): ビジュアルシーングラフプルーニングによるマルチモーダル機械翻訳
- Authors: Chenyu Lu, Shiliang Sun, Jing Zhao, Nan Zhang, Tengfei Song, Hao Yang,
- Abstract要約: マルチモーダル機械翻訳(MMT)は、視覚情報を組み込んだ翻訳作業において、言語多義性やあいまいさによって生じる課題に対処しようとするものである。
視覚的なScene Graph Pruning(PSG)を用いたマルチモーダル機械翻訳について紹介する。
PSGは、言語シーングラフ情報を活用して、視覚シーングラフにおける冗長ノードのプルーニングを誘導し、下流翻訳タスクにおけるノイズを低減する。
- 参考スコア(独自算出の注目度): 31.85382347738067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal machine translation (MMT) seeks to address the challenges posed by linguistic polysemy and ambiguity in translation tasks by incorporating visual information. A key bottleneck in current MMT research is the effective utilization of visual data. Previous approaches have focused on extracting global or region-level image features and using attention or gating mechanisms for multimodal information fusion. However, these methods have not adequately tackled the issue of visual information redundancy in MMT, nor have they proposed effective solutions. In this paper, we introduce a novel approach--multimodal machine translation with visual Scene Graph Pruning (PSG), which leverages language scene graph information to guide the pruning of redundant nodes in visual scene graphs, thereby reducing noise in downstream translation tasks. Through extensive comparative experiments with state-of-the-art methods and ablation studies, we demonstrate the effectiveness of the PSG model. Our results also highlight the promising potential of visual information pruning in advancing the field of MMT.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)は、視覚情報を組み込んだ翻訳作業において、言語多義性やあいまいさによって生じる課題に対処しようとするものである。
現在のMTT研究における重要なボトルネックは、視覚データの有効利用である。
これまでのアプローチでは、グローバルまたは地域レベルの画像の特徴の抽出や、マルチモーダル情報融合のための注意またはゲーティング機構の利用に重点を置いてきた。
しかし、これらの手法は、MTにおける視覚情報冗長性の問題に適切に対処せず、効果的な解決策も提案していない。
本稿では,視覚的なシーングラフを用いたマルチモーダル機械翻訳(PSG)を提案する。この手法は,言語シーングラフ情報を利用して,視覚的なシーングラフにおける冗長ノードのプルーニングを誘導し,下流の翻訳タスクにおけるノイズを低減する。
最先端手法とアブレーション研究による広範囲な比較実験を通じて,PSGモデルの有効性を実証した。
また,MMTの領域を前進させる上での視覚情報プルーニングの可能性も浮き彫りにした。
関連論文リスト
- ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection [107.86009509291581]
我々はForgerySleuthを提案し、包括的ヒント融合を行い、改ざんされた領域を示すセグメンテーション出力を生成する。
ForgeryAnalysisの有効性を実証し,ForgerySleuthが既存手法の堅牢性,一般化性,説明可能性において著しく優れていたことを示す。
論文 参考訳(メタデータ) (2024-11-29T04:35:18Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Generalization algorithm of multimodal pre-training model based on
graph-text self-supervised training [0.0]
自己指導型トレーニングのためのマルチモーダル事前学習アルゴリズムを提案する。
フィルタ情報を用いて微調整を行う場合,グローバル音声データセットの翻訳効果は,ベースラインよりも0.5BLEU高いことがわかった。
論文 参考訳(メタデータ) (2023-02-16T03:34:08Z) - Neural Machine Translation with Phrase-Level Universal Visual
Representations [11.13240570688547]
既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。
提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。
実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-03-19T11:21:13Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。