論文の概要: Scalable Offline ASR for Command-Style Dictation in Courtrooms
- arxiv url: http://arxiv.org/abs/2507.01021v1
- Date: Sat, 07 Jun 2025 17:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.413971
- Title: Scalable Offline ASR for Command-Style Dictation in Courtrooms
- Title(参考訳): 裁判所におけるコマンドスタイルディクテーションのためのスケーラブルオフラインASR
- Authors: Kumarmanas Nethil, Vaibhav Mishra, Kriti Anandan, Kavya Manohar,
- Abstract要約: 我々はCommand-style dictationのためのオープンソースのフレームワークを提案する。
リソース集約型オンラインシステムと高遅延バッチ処理のギャップに対処する。
- 参考スコア(独自算出の注目度): 0.9961452710097686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an open-source framework for Command-style dictation that addresses the gap between resource-intensive Online systems and high-latency Batch processing. Our approach uses Voice Activity Detection (VAD) to segment audio and transcribes these segments in parallel using Whisper models, enabling efficient multiplexing across audios. Unlike proprietary systems like SuperWhisper, this framework is also compatible with most ASR architectures, including widely used CTC-based models. Our multiplexing technique maximizes compute utilization in real-world settings, as demonstrated by its deployment in around 15% of India's courtrooms. Evaluations on live data show consistent latency reduction as user concurrency increases, compared to sequential batch processing. The live demonstration will showcase our open-sourced implementation and allow attendees to interact with it in real-time.
- Abstract(参考訳): 本稿では,リソース集約型オンラインシステムと高遅延バッチ処理のギャップに対処するCommand-style dictationのオープンソースフレームワークを提案する。
提案手法では,Voice Activity Detection (VAD) を用いて音声を分割し,Whisperモデルを用いて並列に書き起こし,音声間の効率的な多重化を実現する。
SuperWhisperのようなプロプライエタリなシステムとは異なり、このフレームワークはCTCベースのモデルを含むほとんどのASRアーキテクチャとも互換性がある。
私たちの多重化技術は、インドの裁判所の約15%に展開された実世界の環境での計算利用を最大化します。
ライブデータの評価では、シーケンシャルなバッチ処理に比べて、ユーザの並行性が向上するにつれて、一貫したレイテンシ低減が示される。
ライブデモでは、私たちのオープンソース実装を紹介し、参加者がリアルタイムでそれと対話できるようにします。
関連論文リスト
- StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文 参考訳(メタデータ) (2025-06-14T16:53:39Z) - AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
オーディオ・ビジュアル・イベント(DAVE)のための局所性を考慮したクロスモーダル対応学習フレームワークLoCoについて述べる。
LoCo は局所対応特徴 (LCF) 変調を適用し、モダリティ共有セマンティクスに焦点を合わせるために単調エンコーダを強制する。
さらに、データ駆動方式で注意領域を動的に調整するローカル適応クロスモーダル(LAC)インタラクションをカスタマイズする。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Joint speech and overlap detection: a benchmark over multiple audio
setup and speech domains [0.0]
VADとOSDは多クラス分類モデルを用いて共同で訓練することができる。
本稿では,様々なVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。
我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせることで、最先端の結果より優れています。
論文 参考訳(メタデータ) (2023-07-24T14:29:21Z) - OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality
Alignment [57.15449072423539]
オープンモダリティ音声認識(textbfOpenSR)の学習システムを提案する。
OpenSRは、3つの異なる設定で1から1へのモダリティ転送を可能にする。
既存の数ショットとフルショットのリップリード方式と比較して、非常に競争力のあるゼロショット性能を実現している。
論文 参考訳(メタデータ) (2023-06-10T11:04:10Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit
of Kaldi [7.9019242334556745]
本稿では,Kaldi と Python 言語をベースとしたオンライン ASR ツールキット "ExKaldi-RT" について述べる。
ExKaldi-RTは、リアルタイムオーディオストリームパイプラインの提供、音響的特徴の抽出、リモート接続によるパケット送信、ニューラルネットワークによる音響確率の推定、オンラインデコーディングのためのツールを提供する。
論文 参考訳(メタデータ) (2021-04-03T12:16:19Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。