論文の概要: Distill the Image to Nowhere: Inversion Knowledge Distillation for
Multimodal Machine Translation
- arxiv url: http://arxiv.org/abs/2210.04468v2
- Date: Fri, 21 Apr 2023 09:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 18:10:26.132654
- Title: Distill the Image to Nowhere: Inversion Knowledge Distillation for
Multimodal Machine Translation
- Title(参考訳): 画像をどこにでも拡張する:マルチモーダル機械翻訳のための逆知識蒸留
- Authors: Ru Peng, Yawen Zeng, Junbo Zhao
- Abstract要約: IKD-MMTは, 逆知識蒸留方式を用いて, 画像自由推論フェーズをサポートする新しいMMTフレームワークである。
知識蒸留モジュールを用いてマルチモーダル特徴生成を行い、ソーステキストのみからマルチモーダル特徴を直接生成する。
実験では,この手法を,全画像マストフレームワークを網羅的に競合するか,あるいは超越した最初の画像フリーアプローチとみなす。
- 参考スコア(独自算出の注目度): 6.845232643246564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Past works on multimodal machine translation (MMT) elevate bilingual setup by
incorporating additional aligned vision information. However, an image-must
requirement of the multimodal dataset largely hinders MMT's development --
namely that it demands an aligned form of [image, source text, target text].
This limitation is generally troublesome during the inference phase especially
when the aligned image is not provided as in the normal NMT setup. Thus, in
this work, we introduce IKD-MMT, a novel MMT framework to support the
image-free inference phase via an inversion knowledge distillation scheme. In
particular, a multimodal feature generator is executed with a knowledge
distillation module, which directly generates the multimodal feature from
(only) source texts as the input. While there have been a few prior works
entertaining the possibility to support image-free inference for machine
translation, their performances have yet to rival the image-must translation.
In our experiments, we identify our method as the first image-free approach to
comprehensively rival or even surpass (almost) all image-must frameworks, and
achieved the state-of-the-art result on the often-used Multi30k benchmark. Our
code and data are available at: https://github.com/pengr/IKD-mmt/tree/master..
- Abstract(参考訳): 過去のマルチモーダル機械翻訳(MMT)では、視覚情報を付加することによりバイリンガル設定が高められた。
しかし、マルチモーダルデータセットのイメージマスタ要件は、MTTの開発をほとんど妨げます - すなわち、[画像、ソーステキスト、ターゲットテキスト]の整列形式を必要とするのです。
この制限は、特に通常のNTT設定のように、アライメントされた画像が提供されない場合、一般的に推論フェーズで問題となる。
そこで本研究では, 逆知識蒸留方式を用いて, 画像自由推論フェーズをサポートする新しいMMTフレームワークであるIKD-MMTを紹介する。
特に、マルチモーダル特徴生成器は知識蒸留モジュールで実行され、入力として(のみ)ソーステキストから直接マルチモーダル特徴を生成する。
機械翻訳のイメージフリー推論をサポートする可能性を享受する先行作品がいくつか存在するが、その性能は画像マスト翻訳に匹敵するものではない。
実験では,この手法を,すべての画像マスフレームワークを包括的に競合あるいは超越する最初の画像フリーアプローチとして認識し,多用されるMulti30kベンチマークで最先端の結果を得た。
私たちのコードとデータは、https://github.com/pengr/ikd-mmt/tree/masterで入手できます。
.
関連論文リスト
- MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Kosmos-G: Generating Images in Context with Multimodal Large Language Models [117.0259361818715]
現在の被写体駆動画像生成法では、テストタイムチューニングが必要であり、インターリーブされたマルチイメージとテキスト入力を受け付けない。
本稿では,マルチモーダル大規模言語モデルの高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。
Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。
論文 参考訳(メタデータ) (2023-10-04T17:28:44Z) - CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for
Multimodal Machine Translation [31.911593690549633]
マルチモーダル機械翻訳(MMT)システムは、視覚的知識でニューラルネットワーク翻訳(NMT)を強化する。
注釈付き多言語視覚言語データが不足しているため、従来の作業は、強力なMTTモデルをゼロからトレーニングする際の課題に直面していた。
独立に訓練されたマルチモーダルM-CLIPと多言語mBARTを適応させるCLIPTransを提案する。
論文 参考訳(メタデータ) (2023-08-29T11:29:43Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - Gumbel-Attention for Multi-modal Machine Translation [18.4381138617661]
マルチモーダル機械翻訳(MMT)は視覚情報を導入して翻訳品質を向上させる。
既存のMTモデルは、画像がテキストに関係のない情報をもたらし、モデルに大きなノイズを与え、翻訳品質に影響を与えるという問題を無視する。
画像特徴のテキスト関連部分を選択するマルチモーダル機械翻訳のための新しいGumbel-Attentionを提案します。
論文 参考訳(メタデータ) (2021-03-16T05:44:01Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。