論文の概要: Pisets: A Robust Speech Recognition System for Lectures and Interviews
- arxiv url: http://arxiv.org/abs/2601.18415v1
- Date: Mon, 26 Jan 2026 12:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.816393
- Title: Pisets: A Robust Speech Recognition System for Lectures and Interviews
- Title(参考訳): Pisets: 講義とインタビューのためのロバスト音声認識システム
- Authors: Ivan Bondarenko, Daniil Grebenkin, Oleg Sedukhin, Mikhail Klementev, Roman Derunets, Lyudmila Budneva,
- Abstract要約: 本研究は、科学者やジャーナリストのための音声テキストシステム「Pisets」について述べる。
アーキテクチャは、Wav2Vec2を用いた一次認識、Audio Spectrogram Transformer(AST)による偽陽性フィルタリング、Whisperによる最終音声認識を含む。
提案手法は、WhisperXや通常のWhisperモデルと比較して、様々な音響条件における長い音声データのロバストな書き起こしを保証する。
- 参考スコア(独自算出の注目度): 2.0524609401792397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a speech-to-text system "Pisets" for scientists and journalists which is based on a three-component architecture aimed at improving speech recognition accuracy while minimizing errors and hallucinations associated with the Whisper model. The architecture comprises primary recognition using Wav2Vec2, false positive filtering via the Audio Spectrogram Transformer (AST), and final speech recognition through Whisper. The implementation of curriculum learning methods and the utilization of diverse Russian-language speech corpora significantly enhanced the system's effectiveness. Additionally, advanced uncertainty modeling techniques were introduced, contributing to further improvements in transcription quality. The proposed approaches ensure robust transcribing of long audio data across various acoustic conditions compared to WhisperX and the usual Whisper model. The source code of "Pisets" system is publicly available at GitHub: https://github.com/bond005/pisets.
- Abstract(参考訳): 本研究は,Whisperモデルに関連する誤りや幻覚を最小限に抑えつつ,音声認識精度の向上を目的とした3成分アーキテクチャに基づく,科学者やジャーナリストのための音声テキストシステム"Pisets"を提案する。
アーキテクチャは、Wav2Vec2を用いた一次認識、Audio Spectrogram Transformer(AST)による偽陽性フィルタリング、Whisperによる最終音声認識を含む。
カリキュラム学習手法の実装と多種多様なロシア語音声コーパスの利用により,システムの有効性が著しく向上した。
さらに、高度な不確実性モデリング技術が導入され、転写品質がさらに向上した。
提案手法は、WhisperXや通常のWhisperモデルと比較して、様々な音響条件における長い音声データのロバストな書き起こしを保証する。
Pisets"システムのソースコードはGitHubで公開されている。
関連論文リスト
- AISHELL6-whisper: A Chinese Mandarin Audio-visual Whisper Speech Dataset with Speech Recognition Baselines [27.195821342473877]
AISHELL6-Whisperは,大規模オープンソースの音声-視覚的ささやき音声データセットである。
本稿ではWhisper-Flamingoフレームワークに基づく音声視覚音声認識(AVSR)ベースラインを提案する。
本モデルでは, データセットのテストセットにおいて, ささやき音声の文字誤り率(CER)を4.13%, 正常音声の1.11%とする。
論文 参考訳(メタデータ) (2025-09-28T12:14:06Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Direct Text to Speech Translation System using Acoustic Units [12.36988942647101]
本稿では,離散音響単位を用いた音声翻訳システムを提案する。
このフレームワークは、異なるソース言語のテキストを入力として使用し、この言語でテキストの書き起こしを必要とせずに、ターゲット言語で音声を生成する。
提案したアーキテクチャを、より多くの言語で事前訓練されたモデルで初期化すると、結果は顕著に改善される。
論文 参考訳(メタデータ) (2023-09-14T07:35:14Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Lip-Listening: Mixing Senses to Understand Lips using Cross Modality
Knowledge Distillation for Word-Based Models [0.03499870393443267]
この研究は、最近の最先端の単語ベースのリリーディングモデルに基づいて、シーケンスレベルとフレームレベルの知識蒸留(KD)をシステムに統合する。
本稿では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
論文 参考訳(メタデータ) (2022-06-05T15:47:54Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Multi-Dialect Arabic Speech Recognition [0.0]
本稿では,アラビア語に対する多言語自動音声認識の設計と開発について述べる。
ディープニューラルネットワークは、シーケンシャルなデータ問題を解決する効果的なツールになりつつある。
提案方式は14%の誤差率を達成し, 従来のシステムより優れていた。
論文 参考訳(メタデータ) (2021-12-25T20:55:57Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。