論文の概要: Categorize Early, Integrate Late: Divergent Processing Strategies in Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2601.06972v1
- Date: Sun, 11 Jan 2026 16:05:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.094784
- Title: Categorize Early, Integrate Late: Divergent Processing Strategies in Automatic Speech Recognition
- Title(参考訳): 早期・統合後期の分類:自動音声認識における分岐処理戦略
- Authors: Nathan Roll, Pranav Bhalerao, Martijn Bartelds, Arjun Pawar, Yuka Tatsumi, Tolulope Ogunremi, Chen Shani, Calbert Graham, Meghan Sumner, Dan Jurafsky,
- Abstract要約: 本稿では,アーキテクチャが表現に与える影響を分離する探索フレームワークであるArchitectural Fingerprintingを紹介する。
コンフォーマーは「分類早期」戦略を導入し、音素カテゴリーを深さ29%早く解き、話者の性別を深さ16%まで下げる。
コンフォーマーのフロントローディング分類は低レイテンシストリーミングの恩恵を受ける可能性があるが、トランスフォーマーの深い統合は、リッチコンテキストとクロス発話正規化を必要とするタスクを好んでいる。
- 参考スコア(独自算出の注目度): 25.21126076459829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In speech language modeling, two architectures dominate the frontier: the Transformer and the Conformer. However, it remains unknown whether their comparable performance stems from convergent processing strategies or distinct architectural inductive biases. We introduce Architectural Fingerprinting, a probing framework that isolates the effect of architecture on representation, and apply it to a controlled suite of 24 pre-trained encoders (39M-3.3B parameters). Our analysis reveals divergent hierarchies: Conformers implement a "Categorize Early" strategy, resolving phoneme categories 29% earlier in depth and speaker gender by 16% depth. In contrast, Transformers "Integrate Late," deferring phoneme, accent, and duration encoding to deep layers (49-57%). These fingerprints suggest design heuristics: Conformers' front-loaded categorization may benefit low-latency streaming, while Transformers' deep integration may favor tasks requiring rich context and cross-utterance normalization.
- Abstract(参考訳): 言語モデリングでは、トランスフォーマーとコンフォーマーという2つのアーキテクチャがフロンティアを支配している。
しかし、その同等のパフォーマンスが収束処理戦略によるものなのか、あるいは別のアーキテクチャ上の帰納バイアスによるものなのかは不明だ。
本稿では、アーキテクチャが表現に与える影響を分離する探索フレームワークであるArchitectural Fingerprintingを紹介し、それを24個の事前学習エンコーダ(39M-3.3Bパラメータ)の制御スイートに適用する。
コンフォーマーは「分類早期」戦略を実装し、音素カテゴリーを深さ29%早く解き、話者の性別を深さ16%まで下げる。
対照的に、Transformerは"Integrate Late", deferring phoneme, accent, and duration encoding to deep layer (49-57%)である。
これらの指紋は設計のヒューリスティックスを示唆している: コンフォーマーのフロントロードされた分類は低レイテンシストリーミングの恩恵を受ける可能性があるが、トランスフォーマーの深い統合はリッチコンテキストとクロス発話正規化を必要とするタスクを好んでいる。
関連論文リスト
- Splitformer: An improved early-exit architecture for automatic speech recognition on edge devices [11.05223262950967]
音声認識ソフトウェアは、リソースを意識した推論中にニューラルネットワークの計算負荷を調整する必要がある。
早期の外部アーキテクチャは、入力をレイヤのサブセットで処理し、中間ブランチで終了する。
自動音声認識アプリケーションには、可変フレームレート分析を適用するメモリ効率のよいニューラルアーキテクチャがある。
このようにして、標準ベンチマークにおける音声認識性能は、モデルパラメータの総数の増加を少なく抑えて大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-22T13:34:18Z) - Rethinking Multimodal Sentiment Analysis: A High-Accuracy, Simplified Fusion Architecture [2.3272964989267626]
本稿では,発話レベルの感情分類に適した,軽量かつ効果的な融合型ディープラーニングモデルを提案する。
我々のアプローチは、注意深く機能エンジニアリングとモジュール設計を行うことで、より単純な融合戦略がより複雑なモデルより優れているか、あるいは一致しているかを示します。
論文 参考訳(メタデータ) (2025-05-05T02:31:11Z) - How Redundant Is the Transformer Stack in Speech Representation Models? [1.2699529713351287]
自己教師付き音声表現モデルは、音声認識、話者識別、感情検出など様々なタスクにおいて顕著な性能を示した。
近年, 変圧器モデルの研究により, 層間に高い冗長性と, 重要な刈り取りの可能性が確認されている。
後処理を必要とせず,変換器を用いた音声表現モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-10T11:00:24Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Audio Transformers [3.1972247646168523]
畳み込み層のないトランスフォーマーアーキテクチャを生音声信号に適用することを提案する。
我々のモデルは、畳み込みモデルより優れて、アート結果の状態を生成します。
畳み込みネットワークにインスパイアされたプーリングなどの手法を用いてトランスフォーマーアーキテクチャの性能をさらに向上する。
論文 参考訳(メタデータ) (2021-05-01T19:38:30Z) - Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic
Parsing [55.97957664897004]
seq2seq、非自動回帰的、タスク指向を構築するための効果的なレシピは、3つのステップで発話とセマンティックフレームをマッピングする。
これらのモデルは通常、長さ予測によってボトルネックとなる。
本研究では,デコードタスクをテキスト生成からスパン予測へシフトさせる非自己回帰手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T07:02:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。