論文の概要: A Study of Syntactic Multi-Modality in Non-Autoregressive Machine
Translation
- arxiv url: http://arxiv.org/abs/2207.04206v1
- Date: Sat, 9 Jul 2022 06:48:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:33:29.175228
- Title: A Study of Syntactic Multi-Modality in Non-Autoregressive Machine
Translation
- Title(参考訳): 非自己回帰機械翻訳における構文的マルチモダリティに関する研究
- Authors: Kexun Zhang, Rui Wang, Xu Tan, Junliang Guo, Yi Ren, Tao Qin, Tie-Yan
Liu
- Abstract要約: 非自己回帰的翻訳モデルでは、ターゲット翻訳のマルチモーダル分布を捉えることは困難である。
我々はこれを短距離および長距離の構文的マルチモーダルに分解し、高度な損失関数を持つ最近のNATアルゴリズムを評価した。
我々は,実世界のデータセットにおいて,複雑な構文的多モード性を扱うために,新たな損失関数を設計する。
- 参考スコア(独自算出の注目度): 144.55713938260828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is difficult for non-autoregressive translation (NAT) models to capture
the multi-modal distribution of target translations due to their conditional
independence assumption, which is known as the "multi-modality problem",
including the lexical multi-modality and the syntactic multi-modality. While
the first one has been well studied, the syntactic multi-modality brings severe
challenge to the standard cross entropy (XE) loss in NAT and is under studied.
In this paper, we conduct a systematic study on the syntactic multi-modality
problem. Specifically, we decompose it into short- and long-range syntactic
multi-modalities and evaluate several recent NAT algorithms with advanced loss
functions on both carefully designed synthesized datasets and real datasets. We
find that the Connectionist Temporal Classification (CTC) loss and the
Order-Agnostic Cross Entropy (OAXE) loss can better handle short- and
long-range syntactic multi-modalities respectively. Furthermore, we take the
best of both and design a new loss function to better handle the complicated
syntactic multi-modality in real-world datasets. To facilitate practical usage,
we provide a guide to use different loss functions for different kinds of
syntactic multi-modality.
- Abstract(参考訳): 非自己回帰的翻訳(NAT)モデルでは、条件付き独立性仮定("multi-modality problem"と呼ばれる語彙的多様性や構文的多様性を含む)により、ターゲット翻訳のマルチモーダル分布を捉えることは困難である。
最初のものはよく研究されているが、構文的多様性はnatの標準クロスエントロピー(xe)損失に深刻な挑戦をもたらし、現在研究中である。
本稿では,構文的多様性問題に関する体系的な研究を行う。
具体的には、これを短距離および長距離の構文的マルチモーダルに分解し、慎重に設計された合成データセットと実データセットの両方に高度な損失関数を持つ最近のNATアルゴリズムを評価する。
接続型テンポラル分類(CTC)の損失と順序非依存型クロスエントロピー(OAXE)の損失は,それぞれ短距離と長距離の構文的マルチモーダルをうまく扱えることがわかった。
さらに,実世界のデータセットにおける複雑な構文的マルチモダリティをよりうまく扱うために,両者を最大限に活用し,新しい損失関数を設計する。
実用的利用を容易にするため,異なる種類の構文的マルチモーダルに対して異なる損失関数を使用するためのガイドを提供する。
関連論文リスト
- Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis [0.0]
マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。
既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。
提案するGSIFNは,これらの問題を解決するために2つの主成分を組み込んでいる。
これはInterlaced Mask機構を採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-08-27T06:44:28Z) - On the Information Redundancy in Non-Autoregressive Translation [82.43992805551498]
非自己回帰翻訳(NAT)におけるマルチモーダル問題の典型例である。
本研究では,最近提案されたNATモデルにおけるマルチモーダル問題を再考する。
複数モーダリティ問題によく対応した2種類の情報冗長性誤差を同定する。
論文 参考訳(メタデータ) (2024-05-04T14:20:28Z) - TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages [96.8603701943286]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Deep Metric Loss for Multimodal Learning [3.8979646385036175]
マルチモーダル学習のための新しいテキストマルチモーダル損失パラダイムを提案する。
textMultiModal Losは、過剰適合による非効率な学習を防止し、マルチモーダルモデルを効率的に最適化する。
我々の損失は、最近のモデルの性能向上を実証的に示す。
論文 参考訳(メタデータ) (2023-08-21T06:04:30Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。