論文の概要: Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination
- arxiv url: http://arxiv.org/abs/2305.12256v1
- Date: Sat, 20 May 2023 18:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:29:00.133198
- Title: Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination
- Title(参考訳): ピボットとしてのシーングラフ:視覚幻覚を用いた推論時間なし非教師なしマルチモーダル機械翻訳
- Authors: Hao Fei, Qian Liu, Meishan Zhang, Min Zhang, Tat-Seng Chua
- Abstract要約: 本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 88.74459704391214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we investigate a more realistic unsupervised multimodal machine
translation (UMMT) setup, inference-time image-free UMMT, where the model is
trained with source-text image pairs, and tested with only source-text inputs.
First, we represent the input images and texts with the visual and language
scene graphs (SG), where such fine-grained vision-language features ensure a
holistic understanding of the semantics. To enable pure-text input during
inference, we devise a visual scene hallucination mechanism that dynamically
generates pseudo visual SG from the given textual SG. Several SG-pivoting based
learning objectives are introduced for unsupervised translation training. On
the benchmark Multi30K data, our SG-based method outperforms the
best-performing baseline by significant BLEU scores on the task and setup,
helping yield translations with better completeness, relevance and fluency
without relying on paired images. Further in-depth analyses reveal how our
model advances in the task setting.
- Abstract(参考訳): 本研究では、より現実的な非教師付きマルチモーダル機械翻訳(UMMT)のセットアップ、推論時画像自由なUMMTについて検討し、そこでは、モデルをソーステキストイメージペアで訓練し、ソーステキスト入力のみを用いてテストする。
まず、視覚・言語シーングラフ(SG)を用いて、入力画像とテキストを表現し、このような微細な視覚言語機能により、セマンティクスの全体的理解が保証される。
推論中の純粋テキスト入力を可能にするために,与えられたテキストSGから擬似視覚SGを動的に生成する視覚シーン幻覚機構を考案した。
教師なし翻訳学習のためのSG-pivotingに基づく学習目標について紹介する。
ベンチマークのマルチ30kデータでは、sgベースの手法は、タスクとセットアップにおいて重要なbleuスコアによって、最もパフォーマンスの高いベースラインを上回っており、ペアイメージに頼ることなく、翻訳の完全性、妥当性、流動性が向上します。
さらに詳細な分析により、タスク設定における我々のモデルがどのように進歩しているかが明らかになる。
関連論文リスト
- FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Generalization algorithm of multimodal pre-training model based on
graph-text self-supervised training [0.0]
自己指導型トレーニングのためのマルチモーダル事前学習アルゴリズムを提案する。
フィルタ情報を用いて微調整を行う場合,グローバル音声データセットの翻訳効果は,ベースラインよりも0.5BLEU高いことがわかった。
論文 参考訳(メタデータ) (2023-02-16T03:34:08Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Simultaneous Machine Translation with Visual Context [42.88121241096681]
同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。
我々は、様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
論文 参考訳(メタデータ) (2020-09-15T18:19:11Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。