論文の概要: InterFormer: Interactive Local and Global Features Fusion for Automatic
Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.16342v2
- Date: Mon, 29 May 2023 11:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 23:33:25.748499
- Title: InterFormer: Interactive Local and Global Features Fusion for Automatic
Speech Recognition
- Title(参考訳): interformer: 音声自動認識のための対話型局所的・グローバル特徴融合
- Authors: Zhi-Hao Lai, Tian-Hao Zhang, Qi Liu, Xinyuan Qian, Li-Fang Wei,
Song-Lu Chen, Feng Chen, Xu-Cheng Yin
- Abstract要約: 局所的・大域的特徴は自動音声認識(ASR)に不可欠である
本稿では,対話型ローカル・グローバル機能融合のためのInterFormerを提案する。
- 参考スコア(独自算出の注目度): 30.242747907746132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The local and global features are both essential for automatic speech
recognition (ASR). Many recent methods have verified that simply combining
local and global features can further promote ASR performance. However, these
methods pay less attention to the interaction of local and global features, and
their series architectures are rigid to reflect local and global relationships.
To address these issues, this paper proposes InterFormer for interactive local
and global features fusion to learn a better representation for ASR.
Specifically, we combine the convolution block with the transformer block in a
parallel design. Besides, we propose a bidirectional feature interaction module
(BFIM) and a selective fusion module (SFM) to implement the interaction and
fusion of local and global features, respectively. Extensive experiments on
public ASR datasets demonstrate the effectiveness of our proposed InterFormer
and its superior performance over the other Transformer and Conformer models.
- Abstract(参考訳): 局所的特徴とグローバル特徴の両方が自動音声認識(asr)に必須である。
最近の多くの手法では、ローカル機能とグローバル機能を組み合わせるだけでasrのパフォーマンスがさらに向上できることが証明されている。
しかし、これらの手法は局所的特徴とグローバル的特徴の相互作用にはあまり注意を払わず、それらのシリーズアーキテクチャは局所的特徴とグローバル的関係を反映するために厳密である。
本稿では,asrの表現性を改善するために,インタラクティブな局所的・グローバル的特徴融合のためのinterformerを提案する。
具体的には,コンボリューションブロックと変圧器ブロックを並列設計で組み合わせる。
さらに,局所的特徴とグローバル的特徴の相互作用と融合を実装するために,双方向特徴相互作用モジュール (BFIM) と選択的融合モジュール (SFM) を提案する。
公開asrデータセットに関する広範な実験は,提案するinterformerの有効性と,他のtransformerおよびconformerモデルよりも優れた性能を示している。
関連論文リスト
- Attention-Guided Multi-scale Interaction Network for Face Super-Resolution [46.42710591689621]
CNNとTransformerハイブリッドネットワークは、顔超解像(FSR)タスクにおいて優れた性能を示した。
マルチスケール機能を融合し、それらの相補性を促進する方法は、FSRの強化に不可欠である。
私たちの設計では、モジュール内およびエンコーダとデコーダ間のマルチスケール機能のフリーフローを可能にします。
論文 参考訳(メタデータ) (2024-09-01T02:53:24Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Mutual Guidance and Residual Integration for Image Enhancement [43.282397174228116]
本稿では,効果的な双方向グローバルローカル情報交換を行うための相互誘導ネットワーク(MGN)を提案する。
本設計では,グローバルな関係のモデリングに重点を置き,一方がローカルな情報処理にコミットする2ブランチのフレームワークを採用する。
その結果、グローバルとローカルの両方のブランチは、相互情報集約のメリットを享受できる。
論文 参考訳(メタデータ) (2022-11-25T06:12:39Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - Masked Transformer for Neighhourhood-aware Click-Through Rate Prediction [74.52904110197004]
本稿では,近隣相互作用に基づくCTR予測を提案し,そのタスクを異種情報ネットワーク(HIN)設定に組み込む。
周辺地域の表現を高めるために,ノード間のトポロジカルな相互作用を4種類検討する。
本研究では,2つの実世界のデータセットに関する総合的な実験を行い,提案手法が最先端のCTRモデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-01-25T12:44:23Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - DF^2AM: Dual-level Feature Fusion and Affinity Modeling for RGB-Infrared
Cross-modality Person Re-identification [18.152310122348393]
RGB-赤外線による人物再識別は、クラス内変異とモダリティの相違が原因で難しい課題である。
我々は,局所的・グローバル的特徴融合(df2)モジュールを,局所的特徴とグローバル的特徴の区別に着目して提案する。
人物画像からグローバルな特徴間の関係をさらに掘り下げるために,親和性モデリング(AM)モジュールを提案する。
論文 参考訳(メタデータ) (2021-04-01T03:12:56Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。