論文の概要: Speech Technology Services for Oral History Research
- arxiv url: http://arxiv.org/abs/2405.02333v1
- Date: Fri, 26 Apr 2024 09:44:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-12 15:50:33.700568
- Title: Speech Technology Services for Oral History Research
- Title(参考訳): 口腔史研究のための音声技術サービス
- Authors: Christoph Draxler, Henk van den Heuvel, Arjan van Hessen, Pavel Ircing, Jan Lehečka,
- Abstract要約: 音声技術は、転写を得るためにこのような記録を処理するための重要な手段であり、オーラルアカウントを構築するためのさらなる拡張である。
我々は、BASにおける音声処理に関連する転写ポータルとWebサービス、Whisperでそれをどのように行うか、残る課題、そして将来の発展に対処する。
- 参考スコア(独自算出の注目度): 1.6194642417585707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Oral history is about oral sources of witnesses and commentors on historical events. Speech technology is an important instrument to process such recordings in order to obtain transcription and further enhancements to structure the oral account In this contribution we address the transcription portal and the webservices associated with speech processing at BAS, speech solutions developed at LINDAT, how to do it yourself with Whisper, remaining challenges, and future developments.
- Abstract(参考訳): 口頭の歴史は、歴史的出来事に関する証人や解説者の口頭資料である。
この貢献は、BASにおける音声処理に関連する転写ポータルとWebサービス、LINDATで開発された音声ソリューション、Whisperでの自分自身の処理方法、残る課題、今後の発展に対処するものである。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Flowchase: a Mobile Application for Pronunciation Training [0.0]
Flowchaseは音声のセグメンショナル特徴と超セグメンショナル特徴をセグメンテーションし分析することのできる音声技術に接続されている。
音声処理パイプラインは、発話に対応する言語情報を受信し、音声サンプルとともに分析する。
音声表現学習に基づく機械学習モデルの組み合わせにより、強制アライメントと音声認識を行う。
論文 参考訳(メタデータ) (2023-07-05T06:32:42Z) - RescueSpeech: A German Corpus for Speech Recognition in Search and
Rescue Domain [20.07933161385449]
音声認識は、騒々しく残響な環境ではまだ難しい。
われわれはRescueSpeechというドイツの音声データセットを作成した。
我々の研究は、この挑戦的なシナリオにおける最先端の手法によって達成されたパフォーマンスは、まだ許容できるレベルには達していないことを強調している。
論文 参考訳(メタデータ) (2023-06-06T23:04:22Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - SpeechCLIP: Integrating Speech with Pre-Trained Vision and Language
Model [56.49878599920353]
SpeechCLIPは、画像を通して音声とテキストをブリッジし、文字起こしなしに音声モデルを強化する新しいフレームワークである。
我々は、最先端の訓練済みのHuBERTとCLIPを活用し、ペア画像と音声キャプションを最小限の微調整で調整する。
論文 参考訳(メタデータ) (2022-10-03T04:15:36Z) - LibriS2S: A German-English Speech-to-Speech Translation Corpus [12.376309678270275]
我々はドイツ語と英語による音声合成訓練コーパスを初めて公開する。
これにより、新しい音声合成モデルと音声合成モデルの作成が可能になる。
本稿では,最近提案されたFastSpeech 2モデルの例に基づくテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-22T09:33:31Z) - Punctuation Restoration [69.97278287534157]
この研究は、ライブストリーミングビデオの書き起こしで句読点を復元する、BehancePRと呼ばれる新しい人間注記コーパスを提示する。
BehancePRに関する我々の実験は、この領域における句読点復元の課題を実証している。
論文 参考訳(メタデータ) (2022-02-19T23:12:57Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。