Fugu-MT 論文翻訳(概要): MIR-GAN: Refining Frame-Level Modality-Invariant Representations with Adversarial Network for Audio-Visual Speech Recognition

論文の概要: MIR-GAN: Refining Frame-Level Modality-Invariant Representations with Adversarial Network for Audio-Visual Speech Recognition

arxiv url: http://arxiv.org/abs/2306.10567v1
Date: Sun, 18 Jun 2023 14:02:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 19:55:01.231662
Title: MIR-GAN: Refining Frame-Level Modality-Invariant Representations with Adversarial Network for Audio-Visual Speech Recognition
Title（参考訳）: MIR-GAN:アダベリアルネットワークを用いたフレームレベルモード不変表現の精製
Authors: Yuchen Hu, Chen Chen, Ruizhe Li, Heqing Zou, Eng Siong Chng
Abstract要約: フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。特に,フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。
参考スコア（独自算出の注目度）: 23.042478625584653
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-visual speech recognition (AVSR) attracts a surge of research interest recently by leveraging multimodal signals to understand human speech. Mainstream approaches addressing this task have developed sophisticated architectures and techniques for multi-modality fusion and representation learning. However, the natural heterogeneity of different modalities causes distribution gap between their representations, making it challenging to fuse them. In this paper, we aim to learn the shared representations across modalities to bridge their gap. Different from existing similar methods on other multimodal tasks like sentiment analysis, we focus on the temporal contextual dependencies considering the sequence-to-sequence task setting of AVSR. In particular, we propose an adversarial network to refine frame-level modality-invariant representations (MIR-GAN), which captures the commonality across modalities to ease the subsequent multimodal fusion process. Extensive experiments on public benchmarks LRS3 and LRS2 show that our approach outperforms the state-of-the-arts.
Abstract（参考訳）: 音声視覚音声認識(AVSR)は、近年、人間の発話を理解するためにマルチモーダル信号を活用することで、研究の関心が高まりつつある。この課題に対処する主流のアプローチは、マルチモーダリティ融合と表現学習のための高度なアーキテクチャと技術を開発した。しかし、異なるモダリティの自然な不均一性は、それらの表現間の分布ギャップを生じさせ、それらを融合させることを困難にする。本稿では,モダリティ間の共通表現を学習してギャップを埋めることを目的とする。感情分析などの他のマルチモーダルタスクにおける既存の類似手法とは異なり,avsrのシーケンス間タスク設定を考慮した時間的文脈依存性に注目した。特に,フレームレベルのモダリティ不変表現(MIR-GAN)を改良する対角ネットワークを提案する。 LRS3 と LRS2 の公開ベンチマークによる大規模な実験により,我々の手法は最先端技術よりも優れていることが示された。

関連論文リスト

Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。意味論の欠如により、異種表現は誤った一致につながる可能性がある。モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文参考訳（メタデータ） (2025-07-28T11:46:35Z)
DFR: A Decompose-Fuse-Reconstruct Framework for Multi-Modal Few-Shot Segmentation [21.536784761515968]
DFR(Decompose, Fuse, Reconstruct)は、マルチモーダルガイダンスを数発のセグメンテーションで効果的に活用するという課題に対処する新しいフレームワークである。
論文参考訳（メタデータ） (2025-07-22T16:21:32Z)
RAMer: Reconstruction-based Adversarial Model for Multi-party Multi-modal Multi-label Emotion Recognition [10.994464649878926]
マルチモーダル表現を洗練するためのRAMer (Reconstruction-based Adrial Model for Emotion Recognition)を提案する。本稿では,RAMer が Dyadic および Multi-party MMER シナリオにおける最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-02-09T07:46:35Z)
WavFusion: Towards wav2vec 2.0 Multimodal Speech Emotion Recognition [2.3367170233149324]
We propose WavFusion, a multimodal speech emotion recognition framework。 WavFusionは、効果的なマルチモーダル融合、モダリティ、差別的表現学習における重要な研究課題に対処する。本研究は, 精度の高いマルチモーダルSERにおいて, ニュアンスな相互モーダル相互作用を捉え, 識別表現を学習することの重要性を強調した。
論文参考訳（メタデータ） (2024-12-07T06:43:39Z)
Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T01:51:31Z)
Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文参考訳（メタデータ） (2024-07-06T04:36:48Z)
TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis [34.28164104577455]
言語・視覚・音響モダリティを活用したマルチモーダル感性分析(MSA)の試み過去の研究は、主に表現学習技術と特徴融合戦略の改善に焦点を当てた。テキスト指向のクロスアテンションネットワーク(TCAN)を導入し,MSAにおけるテキストモダリティの主要な役割を強調した。
論文参考訳（メタデータ） (2024-04-06T07:56:09Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Probing Visual-Audio Representation for Video Highlight Detection via Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文参考訳（メタデータ） (2022-06-21T07:29:37Z)
Group Gated Fusion on Attention-based Bidirectional Alignment for Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。 LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文参考訳（メタデータ） (2022-01-17T09:46:59Z)
A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文参考訳（メタデータ） (2021-11-03T12:24:03Z)
Abstractive Sentence Summarization with Guidance of Selective Multimodal Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文参考訳（メタデータ） (2021-08-11T09:59:34Z)
Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文参考訳（メタデータ） (2021-06-10T00:23:33Z)
Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文参考訳（メタデータ） (2020-07-18T03:08:13Z)
MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文参考訳（メタデータ） (2020-05-07T15:13:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。