論文の概要: VIBEVOICE-ASR Technical Report
- arxiv url: http://arxiv.org/abs/2601.18184v1
- Date: Mon, 26 Jan 2026 06:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.697071
- Title: VIBEVOICE-ASR Technical Report
- Title(参考訳): VibevoICE-ASR 技術報告
- Authors: Zhiliang Peng, Jianwei Yu, Yaoyao Chang, Zilong Wang, Li Dong, Yingbo Hao, Yujie Tu, Chenyu Yang, Wenhui Wang, Songchen Xu, Yutao Sun, Hangbo Bao, Weijiang Xu, Yi Zhu, Zehua Wang, Ting Song, Yan Xia, Zewen Chi, Shaohan Huang, Liang Wang, Chuang Ding, Shuai Wang, Xie Chen, Furu Wei,
- Abstract要約: VibeVoice-ASRは、ロングフォームオーディオにおけるコンテキスト断片化とマルチスピーカー複雑性の課題に対処する。
50以上の言語をサポートし、明示的な言語設定を必要としない。
- 参考スコア(独自算出の注目度): 95.57263110940973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.
- Abstract(参考訳): 本稿では,VibeVoiceをベースとした汎用音声理解フレームワークであるVibeVoice-ASRについて述べる。
オーディオチャンキングに依存する従来のパイプライン方式とは異なり、VibeVoice-ASRは単一パス処理を最大60分間サポートしている。
自動音声認識、話者ダイアリゼーション、タイムスタンプを1つのエンドツーエンド生成タスクに統合する。
さらに、VibeVoice-ASRは50以上の言語をサポートし、明示的な言語設定を必要としない。
さらに、ユーザがカスタマイズされたコネクトを供給できるように、プロンプトベースのコンテキスト注入機構を導入し、ドメイン固有の用語とポリフォニック文字の曖昧さの精度を大幅に改善する。
関連論文リスト
- End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering [33.675277272634666]
CLSRは、エンドツーエンドのコントラスト言語音声レトリバーである。
下流SQAタスクのために、長い音声記録から質問関連セグメントを効率的に抽出する。
論文 参考訳(メタデータ) (2025-11-12T12:49:30Z) - VoiceAgentBench: Are Voice Assistants ready for agentic tasks? [5.639970295197759]
本稿では,現実的な音声エージェント設定におけるSpeechLMの評価ベンチマークであるVoiceAgentBenchを紹介する。
インドの文脈に根ざした5,500以上の合成音声クエリで構成されている。
ツール選択の正確性、構造的整合性、ツールの実行の正しさを測定する。
論文 参考訳(メタデータ) (2025-10-09T09:11:38Z) - HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling [52.537908557508324]
HarmoniFuseは、マルチタスク音声言語モデリングのためのコンポーネント選択およびプロンプト適応フレームワークである。
バッチインターリーブのトレーニング戦略により、ジョイントアノテーションを必要とせずに、別々のASRとSERデータセットを活用することができる。
論文 参考訳(メタデータ) (2025-09-23T02:53:38Z) - CUPE: Contextless Universal Phoneme Encoder for Language-Agnostic Speech Processing [5.466034990848432]
CUPEは120ミリ秒でキー音素の機能をキャプチャする軽量モデルである。
CUPEは、すべての言語に共通する基本音響パターンを学習することで、競合する言語間性能を実現する。
論文 参考訳(メタデータ) (2025-08-21T07:27:10Z) - Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
テキストなしの音声言語モデルは、数十秒を超える可読な音声を生成するのに苦労する。
我々は、長音の音声から学習し、サンプルする最初の音声言語モデルであるSpeechSSMを導出する。
SpeechSSMは線形時間列モデリングの最近の進歩を活用し、コヒーレンスと効率性において現在のトランスフォーマー音声LMを大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - DART: Disentanglement of Accent and Speaker Representation in Multispeaker Text-to-Speech [14.323313455208183]
マルチレベル変分オートエンコーダ(ML-VAE)とベクトル量子化(VQ)を用いたアンサングル話者とアクセント表現の新しい手法を提案する。
提案手法は、話者とアクセントの特徴を効果的に分離する難しさに対処し、合成音声のよりきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-10-17T08:51:46Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。