論文の概要: Context-Aware Dynamic Chunking for Streaming Tibetan Speech Recognition
- arxiv url: http://arxiv.org/abs/2511.09085v1
- Date: Thu, 13 Nov 2025 01:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.401133
- Title: Context-Aware Dynamic Chunking for Streaming Tibetan Speech Recognition
- Title(参考訳): チベット語音声認識における文脈認識動的チャンキング
- Authors: Chao Wang, Yuqing Cai, Renzeng Duojie, Jin Zhang, Yutong Liu, Nyima Tashi,
- Abstract要約: アムドチベット語に対するストリーミング音声認識フレームワークを提案する。
提案手法は、符号化状態に基づいてチャンク幅を適応的に調整し、フレキシブルな受容場を実現する。
我々は、その正書法原理に基づく語彙を構築し、言語的に動機付けられたモデリングユニットを提供する。
復号化中、意味的一貫性を高め、長文の認識を改善するために、外部言語モデルが統合される。
- 参考スコア(独自算出の注目度): 12.810906378862343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a streaming speech recognition framework for Amdo Tibetan, built upon a hybrid CTC/Atten-tion architecture with a context-aware dynamic chunking mechanism. The proposed strategy adaptively adjusts chunk widths based on encoding states, enabling flexible receptive fields, cross-chunk information exchange, and robust adaptation to varying speaking rates, thereby alleviating the context truncation problem of fixed-chunk methods. To further capture the linguistic characteristics of Tibetan, we construct a lexicon grounded in its orthographic principles, providing linguistically motivated modeling units. During decoding, an external language model is integrated to enhance semantic consistency and improve recognition of long sentences. Experimental results show that the proposed framework achieves a word error rate (WER) of 6.23% on the test set, yielding a 48.15% relative improvement over the fixed-chunk baseline, while significantly reducing recognition latency and maintaining performance close to global decoding.
- Abstract(参考訳): 本研究では,文脈認識型動的チャンキング機構を備えたハイブリッドCTC/Atten-tionアーキテクチャ上に構築した,アムドチベット語に対するストリーミング音声認識フレームワークを提案する。
提案手法は、符号化状態に基づいてチャンク幅を適応的に調整し、フレキシブルな受容場、クロスチャンク情報交換、様々な発話率への頑健な適応を実現し、固定チャンク手法のコンテキストトランケーション問題を緩和する。
チベット語の言語的特徴をさらに捉えるため,我々はその正統的な原理に基づく語彙を構築し,言語的に動機づけられたモデリング単位を提供する。
復号化中、意味的一貫性を高め、長文の認識を改善するために、外部言語モデルが統合される。
実験の結果,提案フレームワークはテストセット上で6.23%のワードエラー率(WER)を達成し,48.15%の相対的な改善を実現し,認識遅延を大幅に低減し,グローバルデコーディングに近い性能を維持した。
関連論文リスト
- Weakly-supervised Audio Temporal Forgery Localization via Progressive Audio-language Co-learning Network [17.91342898415867]
既存のATFL手法は、細かいアノテーションを使って効率的なネットワークを訓練することに依存している。
そこで本稿では,ローカライズ性能を高めるために,協調学習と自己超越的手法を取り入れたプログレッシブ・オーディオ・コラーニング・ネットワーク(LOCO)を提案する。
提案したLOCOは3つの公開ベンチマークでSOTA性能を達成する。
論文 参考訳(メタデータ) (2025-05-03T17:57:57Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Language-based Audio Retrieval with Co-Attention Networks [22.155383794829977]
本稿では,言語に基づく音声検索のための新しいフレームワークを提案する。
本稿では,テキストと音声のセマンティックアライメントを改良するために,コアテンションモジュールを積み重ねたり繰り返したりする,カスケード型コアテンションアーキテクチャを提案する。
2つの公開データセットで行った実験により,提案手法は最先端手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-12-30T12:49:55Z) - Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。