Fugu-MT 論文翻訳(概要): Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation

論文の概要: Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation

arxiv url: http://arxiv.org/abs/2210.04468v2
Date: Fri, 21 Apr 2023 09:40:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-24 18:10:26.132654
Title: Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation
Title（参考訳）: 画像をどこにでも拡張する:マルチモーダル機械翻訳のための逆知識蒸留
Authors: Ru Peng, Yawen Zeng, Junbo Zhao
Abstract要約: IKD-MMTは, 逆知識蒸留方式を用いて, 画像自由推論フェーズをサポートする新しいMMTフレームワークである。知識蒸留モジュールを用いてマルチモーダル特徴生成を行い、ソーステキストのみからマルチモーダル特徴を直接生成する。実験では,この手法を,全画像マストフレームワークを網羅的に競合するか,あるいは超越した最初の画像フリーアプローチとみなす。
参考スコア（独自算出の注目度）: 6.845232643246564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Past works on multimodal machine translation (MMT) elevate bilingual setup by incorporating additional aligned vision information. However, an image-must requirement of the multimodal dataset largely hinders MMT's development -- namely that it demands an aligned form of [image, source text, target text]. This limitation is generally troublesome during the inference phase especially when the aligned image is not provided as in the normal NMT setup. Thus, in this work, we introduce IKD-MMT, a novel MMT framework to support the image-free inference phase via an inversion knowledge distillation scheme. In particular, a multimodal feature generator is executed with a knowledge distillation module, which directly generates the multimodal feature from (only) source texts as the input. While there have been a few prior works entertaining the possibility to support image-free inference for machine translation, their performances have yet to rival the image-must translation. In our experiments, we identify our method as the first image-free approach to comprehensively rival or even surpass (almost) all image-must frameworks, and achieved the state-of-the-art result on the often-used Multi30k benchmark. Our code and data are available at: https://github.com/pengr/IKD-mmt/tree/master..
Abstract（参考訳）: 過去のマルチモーダル機械翻訳(MMT)では、視覚情報を付加することによりバイリンガル設定が高められた。しかし、マルチモーダルデータセットのイメージマスタ要件は、MTTの開発をほとんど妨げます - すなわち、[画像、ソーステキスト、ターゲットテキスト]の整列形式を必要とするのです。この制限は、特に通常のNTT設定のように、アライメントされた画像が提供されない場合、一般的に推論フェーズで問題となる。そこで本研究では, 逆知識蒸留方式を用いて, 画像自由推論フェーズをサポートする新しいMMTフレームワークであるIKD-MMTを紹介する。特に、マルチモーダル特徴生成器は知識蒸留モジュールで実行され、入力として(のみ)ソーステキストから直接マルチモーダル特徴を生成する。機械翻訳のイメージフリー推論をサポートする可能性を享受する先行作品がいくつか存在するが、その性能は画像マスト翻訳に匹敵するものではない。実験では,この手法を,すべての画像マスフレームワークを包括的に競合あるいは超越する最初の画像フリーアプローチとして認識し,多用されるMulti30kベンチマークで最先端の結果を得た。私たちのコードとデータは、https://github.com/pengr/ikd-mmt/tree/masterで入手できます。 .

関連論文リスト

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:27:12Z)
OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model [8.619958921346184]
マルチモーダルリモートセンシング画像登録は、データ融合と解析のために異なるセンサからの画像を整列する。我々は,新しいマルチモーダル画像登録フレームワークであるOSDM-MRegを提案する。実験は、様々なマルチモーダル登録タスクにおいて、精度と効率が優れていることを示す。
論文参考訳（メタデータ） (2025-04-08T13:32:56Z)
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文参考訳（メタデータ） (2025-01-10T07:56:23Z)
Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation [40.42326040668964]
本稿では,多モーダル大言語モデル (MLLM) に安定な拡散に基づくイマジネーションネットワークを導入し,各元文の画像を明示的に生成する。我々は、生成した画像と原文との整合性を確保するために、強化学習による人間のフィードバックを構築する。実験結果から,本モデルは既存のマルチモーダルMTとテキストのみのMTよりも優れていた。
論文参考訳（メタデータ） (2024-12-17T07:41:23Z)
MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。 MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文参考訳（メタデータ） (2024-01-18T18:50:16Z)
Kosmos-G: Generating Images in Context with Multimodal Large Language Models [117.0259361818715]
現在の被写体駆動画像生成法では、テストタイムチューニングが必要であり、インターリーブされたマルチイメージとテキスト入力を受け付けない。本稿では,マルチモーダル大規模言語モデルの高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。 Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。
論文参考訳（メタデータ） (2023-10-04T17:28:44Z)
CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine Translation [31.911593690549633]
マルチモーダル機械翻訳(MMT)システムは、視覚的知識でニューラルネットワーク翻訳(NMT)を強化する。注釈付き多言語視覚言語データが不足しているため、従来の作業は、強力なMTTモデルをゼロからトレーニングする際の課題に直面していた。独立に訓練されたマルチモーダルM-CLIPと多言語mBARTを適応させるCLIPTransを提案する。
論文参考訳（メタデータ） (2023-08-29T11:29:43Z)
Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文参考訳（メタデータ） (2023-05-20T18:17:20Z)
Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文参考訳（メタデータ） (2022-12-20T15:02:38Z)
Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文参考訳（メタデータ） (2022-12-20T10:18:18Z)
Gumbel-Attention for Multi-modal Machine Translation [18.4381138617661]
マルチモーダル機械翻訳(MMT)は視覚情報を導入して翻訳品質を向上させる。既存のMTモデルは、画像がテキストに関係のない情報をもたらし、モデルに大きなノイズを与え、翻訳品質に影響を与えるという問題を無視する。画像特徴のテキスト関連部分を選択するマルチモーダル機械翻訳のための新しいGumbel-Attentionを提案します。
論文参考訳（メタデータ） (2021-03-16T05:44:01Z)
A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文参考訳（メタデータ） (2020-07-17T04:06:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。