論文の概要: Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition
- arxiv url: http://arxiv.org/abs/2401.17604v2
- Date: Thu, 8 Feb 2024 11:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-10 03:08:17.177085
- Title: Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition
- Title(参考訳): cued音声認識用マルチモーダルフュージョントランスの計算とパラメータ向上
- Authors: Lei Liu and Li Liu and Haizhou Li
- Abstract要約: Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
- 参考スコア(独自算出の注目度): 48.84506301960988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cued Speech (CS) is a pure visual coding method used by hearing-impaired
people that combines lip reading with several specific hand shapes to make the
spoken language visible. Automatic CS recognition (ACSR) seeks to transcribe
visual cues of speech into text, which can help hearing-impaired people to
communicate effectively. The visual information of CS contains lip reading and
hand cueing, thus the fusion of them plays an important role in ACSR. However,
most previous fusion methods struggle to capture the global dependency present
in long sequence inputs of multi-modal CS data. As a result, these methods
generally fail to learn the effective cross-modal relationships that contribute
to the fusion. Recently, attention-based transformers have been a prevalent
idea for capturing the global dependency over the long sequence in multi-modal
fusion, but existing multi-modal fusion transformers suffer from both poor
recognition accuracy and inefficient computation for the ACSR task. To address
these problems, we develop a novel computation and parameter efficient
multi-modal fusion transformer by proposing a novel Token-Importance-Aware
Attention mechanism (TIAA), where a token utilization rate (TUR) is formulated
to select the important tokens from the multi-modal streams. More precisely,
TIAA firstly models the modality-specific fine-grained temporal dependencies
over all tokens of each modality, and then learns the efficient cross-modal
interaction for the modality-shared coarse-grained temporal dependencies over
the important tokens of different modalities. Besides, a light-weight gated
hidden projection is designed to control the feature flows of TIAA. The
resulting model, named Economical Cued Speech Fusion Transformer (EcoCued),
achieves state-of-the-art performance on all existing CS datasets, compared
with existing transformer-based fusion methods and ACSR fusion methods.
- Abstract(参考訳): cued speech (cs) は、聴覚障害者が唇の読みといくつかの特定の手形を組み合わせて音声言語を視認する純粋視覚符号化手法である。
自動cs認識(acsr)は、聴覚障害者が効果的にコミュニケーションできるように、音声の視覚的な手がかりをテキストに書き起こそうとする。
CSの視覚情報はリップリーディングとハンドキューを含むため、それらの融合はACSRにおいて重要な役割を果たす。
しかし、従来の核融合法は、マルチモーダルcsデータの長いシーケンス入力に存在する大域的な依存関係を捉えるのに苦労している。
結果として、これらの方法は通常、融合に寄与する効果的なクロスモーダル関係を学ばない。
近年,マルチモーダル核融合における長いシーケンスに対するグローバル依存を捉えるための注意に基づくトランスフォーマーが普及しているが,既存のマルチモーダル核融合トランスフォーマーは認識精度の低下とacsrタスクの非効率な計算に苦しめられている。
これらの問題に対処するために,トークン利用率(TUR)を定式化して,マルチモーダルストリームから重要なトークンを選択する,新しいトークン・イパタンス・アウェア・アテンション機構(TIAA)を提案することにより,新しい計算手法とパラメータ効率のよいマルチモーダル融合トランスフォーマを開発する。
より正確には、tiaaはまず各モダリティのすべてのトークンに対するモダリティ固有の粒度の時間依存性をモデル化し、その後、異なるモダリティの重要なトークンに対するモダリティが共有する粒度の粗い時間依存性の効率的なクロスモーダル相互作用を学ぶ。
さらに、TIAAの特徴流を制御するために、軽量ゲート隠れプロジェクションが設計されている。
得られたモデルであるEcoCued Economical Cued Speech Fusion Transformer (EcoCued)は、既存のトランスフォーマーベースの融合法やACSR融合法と比較して、既存のCSデータセットの最先端のパフォーマンスを実現する。
関連論文リスト
- Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Unified Contrastive Fusion Transformer for Multimodal Human Action
Recognition [13.104967563769533]
我々は、Unified Contrastive Fusion Transformer (UCFFormer)と呼ばれる新しいマルチモーダル核融合アーキテクチャを導入する。
UCFFormerは、人間の行動認識(HAR)性能を向上させるために、さまざまなディストリビューションとデータを統合する。
We present the Factorized Time-Modality Attention to perform self-attention for the Unified Transformer。
論文 参考訳(メタデータ) (2023-09-10T14:10:56Z) - RGBT Tracking via Progressive Fusion Transformer with Dynamically Guided
Learning [37.067605349559]
本稿ではProFormerと呼ばれる新しいプログレッシブフュージョントランスを提案する。
単一のモダリティ情報をマルチモーダル表現に統合し、堅牢なRGBT追跡を行う。
ProFormerは、RGBT210、RGBT234、LasHeR、VTUAVデータセットに新しい最先端パフォーマンスを設定する。
論文 参考訳(メタデータ) (2023-03-26T16:55:58Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - A Self-Adjusting Fusion Representation Learning Model for Unaligned
Text-Audio Sequences [16.38826799727453]
融合表現を学習するために各モダリティの関連情報を統合する方法は、マルチモーダル学習における中心的な課題の1つとなっている。
本稿では,不整合テキストや音声シーケンスから直接,頑健な相互拡散表現を学習するために,自己調整型融合表現学習モデルを提案する。
実験結果から,本モデルでは不整合テキスト・オーディオ・シーケンスにおける全ての指標の性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2022-11-12T13:05:28Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional
Emotion Recognition [57.766837326063346]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。