論文の概要: TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages
- arxiv url: http://arxiv.org/abs/2402.16021v1
- Date: Sun, 25 Feb 2024 07:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:40:14.410738
- Title: TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages
- Title(参考訳): tmt:異なる言語として異なるモダリティを処理し、音声、画像、テキスト間の三段翻訳
- Authors: Minsu Kim, Jee-weon Jung, Hyeongseop Rha, Soumi Maiti, Siddhant Arora,
Xuankai Chang, Shinji Watanabe, Yong Man Ro
- Abstract要約: Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
- 参考スコア(独自算出の注目度): 96.8603701943286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capability to jointly process multi-modal information is becoming an
essential task. However, the limited number of paired multi-modal data and the
large computational requirements in multi-modal learning hinder the
development. We propose a novel Tri-Modal Translation (TMT) model that
translates between arbitrary modalities spanning speech, image, and text. We
introduce a novel viewpoint, where we interpret different modalities as
different languages, and treat multi-modal translation as a well-established
machine translation problem. To this end, we tokenize speech and image data
into discrete tokens, which provide a unified interface across modalities and
significantly decrease the computational cost. In the proposed TMT, a
multi-modal encoder-decoder conducts the core translation, whereas
modality-specific processing is conducted only within the tokenization and
detokenization stages. We evaluate the proposed TMT on all six modality
translation tasks. TMT outperforms single model counterparts consistently,
demonstrating that unifying tasks is beneficial not only for practicality but
also for performance.
- Abstract(参考訳): マルチモーダル情報を共同処理する能力は重要な課題になりつつある。
しかしながら、ペア型マルチモーダルデータの限られた数と、マルチモーダル学習における大きな計算要件は、開発を妨げている。
本稿では, 音声, 画像, テキストを対象とする任意のモーダル間を翻訳する新しい3モード翻訳(TMT)モデルを提案する。
本稿では,異なるモーダルを異なる言語として解釈し,マルチモーダル翻訳を機械翻訳問題として扱う,新しい視点を紹介する。
この目的のために、音声と画像データを離散トークンにトークン化し、モダリティ間の統一インターフェースを提供し、計算コストを大幅に削減する。
提案するtmtでは、マルチモーダルエンコーダ-デコーダがコア変換を行い、モダリティ固有の処理はトークン化とデトケナイゼーションの段階でのみ行われる。
提案したTMTを6つのモーダル翻訳タスクすべてで評価する。
TMTは単一モデルの性能を一貫して上回り、統一タスクは実用性だけでなくパフォーマンスにも有益であることを示した。
関連論文リスト
- EMMeTT: Efficient Multimodal Machine Translation Training [26.295981183965566]
自動音声翻訳(AST)を含む音声-LLMのマルチモーダル共同学習方式を提案する。
共同マルチモーダルトレーニングを扱うために,EMMeTTと呼ばれる新しいトレーニングフレームワークを提案する。
結果、多モーダル翻訳モデルでは、強いテキストと音声の翻訳結果を同時に生成する。
論文 参考訳(メタデータ) (2024-09-20T14:03:23Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z) - Towards Multimodal Simultaneous Neural Machine Translation [28.536262015508722]
同時翻訳では、リアルタイム理解を実現するために、話者の発話が完了する前に文章を翻訳する。
このタスクは、復号時に入力情報が不足しているため、一般的な全文翻訳よりもはるかに難しい。
視覚情報を付加的なモダリティとして活用するマルチモーダル同時ニューラルネットワーク翻訳(MSNMT)を提案する。
論文 参考訳(メタデータ) (2020-04-07T08:02:21Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。