論文の概要: Segmental Attention Decoding With Long Form Acoustic Encodings
- arxiv url: http://arxiv.org/abs/2512.14652v1
- Date: Tue, 16 Dec 2025 18:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.826319
- Title: Segmental Attention Decoding With Long Form Acoustic Encodings
- Title(参考訳): ロングフォーム音響符号化によるセグメント注意復号
- Authors: Pawel Swietojanski, Xinwei Li, Mingbin Xu, Takaaki Hori, Dogan Can, Xiaodan Zhuang,
- Abstract要約: 長大音響符号化を用いた注意型エンコーダデコーダ(AED)モデルの基本的不整合性に対処する。
セグメント音声で訓練されたAEDモデルは、セグメント境界を超えた限られた音環境を利用して絶対的なフレーム位置を符号化することを学ぶ。
これらの修正により, 連続符号化とセグメント音響符号化の精度ギャップが縮まり, 注意復号器の自己回帰的利用が可能となった。
- 参考スコア(独自算出の注目度): 9.294480174743647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the fundamental incompatibility of attention-based encoder-decoder (AED) models with long-form acoustic encodings. AED models trained on segmented utterances learn to encode absolute frame positions by exploiting limited acoustic context beyond segment boundaries, but fail to generalize when decoding long-form segments where these cues vanish. The model loses ability to order acoustic encodings due to permutation invariance of keys and values in cross-attention. We propose four modifications: (1) injecting explicit absolute positional encodings into cross-attention for each decoded segment, (2) long-form training with extended acoustic context to eliminate implicit absolute position encoding, (3) segment concatenation to cover diverse segmentations needed during training, and (4) semantic segmentation to align AED-decoded segments with training segments. We show these modifications close the accuracy gap between continuous and segmented acoustic encodings, enabling auto-regressive use of the attention decoder.
- Abstract(参考訳): 長大音響符号化を用いた注意型エンコーダデコーダ(AED)モデルの基本的不整合性に対処する。
セグメント音声で訓練されたAEDモデルは、セグメント境界を超えた限られた音響コンテキストを利用して絶対的なフレーム位置を符号化することを学ぶが、これらのキューが消滅する長文セグメントを復号する際には一般化に失敗する。
このモデルは、キーと値の置換不変性により、アコースティックエンコーディングを命令する能力を失っている。
そこで本研究では,(1)有意な絶対位置エンコーディングを各復号セグメントに対して相互アテンションに注入すること,(2)暗黙的な絶対位置エンコーディングを除去するための拡張音響文脈による長期学習,(3)訓練に必要な多様なセグメンテーションをカバーするセグメント結合,(4)AED復号セグメントをトレーニングセグメントと整合させる意味的セグメンテーションを提案する。
これらの修正により, 連続符号化とセグメント音響符号化の精度ギャップが縮まり, 注意復号器の自己回帰的利用が可能となった。
関連論文リスト
- SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation [44.76424642509807]
復号器隠蔽状態に応じて様々な音響状態の利点を示す。
本稿では,デコーダの音響状態を動的に適応できる適応型音声テキスト翻訳モデルを提案する。
広範に使用されている2つのデータセットの実験結果から,提案手法は最先端のニューラル音声翻訳モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-03-18T11:59:27Z) - Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition [29.213510690345096]
本稿では,コネクショニスト時間分類(CTC)と注意ハイブリッド損失の利点をフル活用するために,重複符号化分離(EncSep)を提案する。
LibriMixの実験結果から, 重複符号化から単一話者符号化を分離できることが示唆された。
論文 参考訳(メタデータ) (2024-09-01T19:07:34Z) - Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement [1.4037575966075835]
生のオーディオの1Dフィルターは訓練が困難で、しばしば不安定に悩まされる。
これらの問題は、理論駆動とデータ駆動のアプローチを組み合わせたハイブリッドソリューションによって解決される。
論文 参考訳(メタデータ) (2024-08-30T15:49:31Z) - Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - Two Stones Hit One Bird: Bilevel Positional Encoding for Better Length Extrapolation [69.68831888599476]
そこで我々は,バイレベル位置符号化と呼ばれる新しい位置符号化法を開発した。
倫理的分析は、この位置情報の絡み合いが学習をより効果的にすることを示している。
私たちのBiPEは、多種多様なテキストモダリティにおいて、幅広いタスクにわたって、より優れた長さの補間機能を持っています。
論文 参考訳(メタデータ) (2024-01-29T18:59:07Z) - Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor
Segmentation [90.74732705236336]
言語クエリビデオアクターセグメンテーションは、ターゲットフレーム内の自然言語クエリで記述されたアクションを実行するアクターのピクセルマスクを予測することを目的としています。
本研究では,ビデオクリップ上に3次元時間エンコーダを内蔵した空間時空間エンコーダ・デコーダフレームワークと,対象フレーム上に2次元空間エンコーダを組み込んで,クエリアクターを正確にセグメント化することを提案する。
論文 参考訳(メタデータ) (2021-05-14T13:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。