論文の概要: On Vision Features in Multimodal Machine Translation
- arxiv url: http://arxiv.org/abs/2203.09173v1
- Date: Thu, 17 Mar 2022 08:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:48:38.542914
- Title: On Vision Features in Multimodal Machine Translation
- Title(参考訳): マルチモーダル機械翻訳における視覚特徴について
- Authors: Bei Li, Chuanhao Lv, Zefan Zhou, Tao Zhou, Tong Xiao, Anxiang Ma and
JingBo Zhu
- Abstract要約: 我々は,マルチモーダル機械翻訳における画像のパッチレベルの寄与を研究するために,選択的アテンションモデルを開発する。
この結果から,MMTモデル,特に現在のベンチマークが小規模でバイアスのある場合,慎重に検討する必要があることが示唆された。
- 参考スコア(独自算出の注目度): 34.41229863267296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work on multimodal machine translation (MMT) has focused on the way
of incorporating vision features into translation but little attention is on
the quality of vision models. In this work, we investigate the impact of vision
models on MMT. Given the fact that Transformer is becoming popular in computer
vision, we experiment with various strong models (such as Vision Transformer)
and enhanced features (such as object-detection and image captioning). We
develop a selective attention model to study the patch-level contribution of an
image in MMT. On detailed probing tasks, we find that stronger vision models
are helpful for learning translation from the visual modality. Our results also
suggest the need of carefully examining MMT models, especially when current
benchmarks are small-scale and biased. Our code could be found at
\url{https://github.com/libeineu/fairseq_mmt}.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)に関するこれまでの研究は、視覚機能を翻訳に組み込む方法に焦点を当ててきたが、視覚モデルの品質にはほとんど注目されていない。
本研究では,MMTにおける視覚モデルの影響について検討する。
トランスフォーマーがコンピュータビジョンで普及していることを踏まえ、様々な強力なモデル(視覚トランスフォーマーなど)と拡張された機能(物体検出や画像キャプションなど)を実験している。
MMTにおける画像のパッチレベルの寄与を研究するために,選択的注意モデルを構築した。
詳細な探索タスクでは、より強力な視覚モデルが視覚的モダリティから翻訳を学ぶのに役立つことが分かる。
また,MMTモデル,特に現在のベンチマークが小規模でバイアスのある場合,慎重に検討する必要があることも示唆した。
我々のコードは \url{https://github.com/libeineu/fairseq_mmt} にある。
関連論文リスト
- VisionLLaMA: A Unified LLaMA Backbone for Vision Tasks [60.22144823791902]
我々は,LLaMAライクな視覚トランスフォーマーを,この目的のために設計されたVisionLLaMAと呼ばれる,平らでピラミッド的な形状で披露する。
VisionLLaMAは、ほとんどのビジョンタスクを解決するための統一的で汎用的なモデリングフレームワークである。
論文 参考訳(メタデータ) (2024-03-01T13:30:51Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Vision Language Transformers: A Survey [0.9137554315375919]
イメージを記述するキャプションに関する質問に答えたり、生成したりするといった視覚言語タスクは、コンピュータが実行するのが難しいタスクである。
最近の研究は、ciptvaswani 2017で導入された事前訓練されたトランスフォーマーアーキテクチャを視覚言語モデリングに適用している。
トランスフォーマーモデルは、以前のビジョン言語モデルよりも性能と汎用性を大幅に改善した。
論文 参考訳(メタデータ) (2023-07-06T19:08:56Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - Vision Matters When It Should: Sanity Checking Multimodal Machine
Translation Models [25.920891392933058]
マルチモーダル機械翻訳(MMT)システムは、視覚的コンテキストが利用できる場合、テキストのみのニューラルネットワーク翻訳(NMT)よりも優れていることが示されている。
近年の研究では、MMTモデルの性能は、関連画像が非関連画像やノイズに置き換えられた場合にのみ、限界的に影響を受けることが示されている。
論文 参考訳(メタデータ) (2021-09-08T03:32:48Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。