論文の概要: Good for Misconceived Reasons: An Empirical Revisiting on the Need for
Visual Context in Multimodal Machine Translation
- arxiv url: http://arxiv.org/abs/2105.14462v1
- Date: Sun, 30 May 2021 08:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:49:26.482799
- Title: Good for Misconceived Reasons: An Empirical Revisiting on the Need for
Visual Context in Multimodal Machine Translation
- Title(参考訳): 誤解を招く理由:マルチモーダル機械翻訳における視覚的文脈の必要性に関する経験的再検討
- Authors: Zhiyong Wu, Lingpeng Kong, Wei Bi, Xiang Li, Ben Kao
- Abstract要約: ニューラルマルチモーダル機械翻訳(MMT)システムは,従来のテキストのみの翻訳モデルを多モーダル情報で拡張することにより,より良い翻訳を実現することを目的としている。
我々は、2つの解釈可能なMTモデルを考案し、MTにおけるマルチモーダル情報の貢献を再考する。
テキストのみに対するマルチモーダルモデルによる改善は、実際に正規化効果の結果であることが判明した。
- 参考スコア(独自算出の注目度): 41.50096802992405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A neural multimodal machine translation (MMT) system is one that aims to
perform better translation by extending conventional text-only translation
models with multimodal information. Many recent studies report improvements
when equipping their models with the multimodal module, despite the controversy
of whether such improvements indeed come from the multimodal part. We revisit
the contribution of multimodal information in MMT by devising two interpretable
MMT models. To our surprise, although our models replicate similar gains as
recently developed multimodal-integrated systems achieved, our models learn to
ignore the multimodal information. Upon further investigation, we discover that
the improvements achieved by the multimodal models over text-only counterparts
are in fact results of the regularization effect. We report empirical findings
that highlight the importance of MMT models' interpretability, and discuss how
our findings will benefit future research.
- Abstract(参考訳): ニューラルマルチモーダル機械翻訳システム(MMT)は,従来のテキストのみの翻訳モデルを多モーダル情報で拡張することにより,より良い翻訳を実現することを目的としたシステムである。
最近の多くの研究は、そのような改善が実際にマルチモーダル部分から来るかどうかの議論にもかかわらず、モデルをマルチモーダルモジュールに装備する際の改善を報告している。
我々は、2つの解釈可能なMTモデルを考案し、MTにおけるマルチモーダル情報の貢献を再考する。
驚いたことに、我々のモデルは、最近開発されたマルチモーダル統合システムを再現するが、我々のモデルはマルチモーダル情報を無視することを学ぶ。
さらに調査した結果,テキストのみに対するマルチモーダルモデルによる改善は,実際に正規化効果の結果であることがわかった。
MMTモデルの解釈可能性の重要性を強調した実証的な知見を報告し、今後の研究にどのように役立つかについて議論する。
関連論文リスト
- TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages [96.8603701943286]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z) - TransModality: An End2End Fusion Method with Transformer for Multimodal
Sentiment Analysis [42.6733747726081]
マルチモーダル感情分析の課題に対処する新たな融合手法であるTransModalityを提案する。
我々は、CMU-MOSI、MELD、IEMOCAPという複数のマルチモーダルデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-09-07T06:11:56Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。