論文の概要: Take the aTrain. Introducing an Interface for the Accessible
Transcription of Interviews
- arxiv url: http://arxiv.org/abs/2310.11967v1
- Date: Wed, 18 Oct 2023 13:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 11:37:13.711834
- Title: Take the aTrain. Introducing an Interface for the Accessible
Transcription of Interviews
- Title(参考訳): aTrainをご覧ください。
インタビューのアクセシブルな書き起こしのためのインタフェースの導入
- Authors: Armin Haberl, J\"urgen Flei{\ss}, Dominik Kowald, Stefan Thalmann
- Abstract要約: aTrainは、CPUとNVIDIA GPUをサポートする複数の言語でオーディオデータを記述するためのオープンソースツールである。
aTrainはプログラミングのスキルを必要とせず、ほとんどのコンピュータ上で動作し、インターネット接続を必要としない。
使いやすいグラフィカルインターフェースを持ち、Microsoft Storeを通じてWindows-Appとして提供される。
- 参考スコア(独自算出の注目度): 0.1433758865948252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: aTrain is an open-source and offline tool for transcribing audio data in
multiple languages with CPU and NVIDIA GPU support. It is specifically designed
for researchers using qualitative data generated from various forms of speech
interactions with research participants. aTrain requires no programming skills,
runs on most computers, does not require an internet connection, and was
verified not to upload data to any server. aTrain combines OpenAI's Whisper
model with speaker recognition to provide output that integrates with the
popular qualitative data analysis software tools MAXQDA and ATLAS.ti. It has an
easy-to-use graphical interface and is provided as a Windows-App through the
Microsoft Store allowing for simple installation by researchers. The source
code is freely available on GitHub. Having developed aTrain with a focus on
speed on local computers, we show that the transcription time on current mobile
CPUs is around 2 to 3 times the duration of the audio file using the
highest-accuracy transcription models. If an entry-level graphics card is
available, the transcription speed increases to 20% of the audio duration.
- Abstract(参考訳): aTrainは、CPUとNVIDIA GPUをサポートする複数の言語でオーディオデータを記述するための、オープンソースのオフラインツールである。
研究参加者との様々な音声相互作用から生成される定性的データを用いて、研究者向けに特別に設計されている。
aTrainはプログラミングのスキルを必要とせず、ほとんどのコンピュータ上で動作し、インターネット接続を必要としない。
aTrainは、OpenAIのWhisperモデルと話者認識を組み合わせて、一般的な定性的データ分析ソフトウェアツールMAXQDAとATLAS.tiを統合した出力を提供する。
使いやすいグラフィカルインターフェースを持ち、Microsoft Storeを通じてWindows-Appとして提供されており、研究者による簡単なインストールが可能である。
ソースコードはGitHubから無料で入手できる。
ローカルコンピュータの速度に着目したatrainを開発した結果,現在のモバイルcpuの書き起こし時間は,最高精度の書き起こしモデルを用いてオーディオファイルの約2~3倍であることがわかった。
入力レベルのグラフィックカードが利用可能であれば、書き起こし速度は音声の20%に向上する。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - The NeurIPS 2023 Machine Learning for Audio Workshop: Affective Audio Benchmarks and Novel Data [28.23517306589778]
NeurIPS 2023 Machine Learning for Audio Workshopは、さまざまなオーディオドメインから機械学習(ML)の専門家を集めている。
音声感情認識から音声イベント検出まで、音声駆動MLの貴重なタスクはいくつかあるが、他のML領域と比較して、コミュニティは希少である。
高品質なデータ収集は時間がかかり費用がかかるため、学術グループがしばしば最先端の戦略をより大きな、より一般化可能なデータセットに適用することは困難である。
論文 参考訳(メタデータ) (2024-03-21T00:13:59Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Reproducing Whisper-Style Training Using an Open-Source Toolkit and
Publicly Available Data [75.7383558074758]
本研究はWhisperスタイル音声モデル(OWSM)を提案する。
OWSMはオープンソースツールキットと公開データを使ってWhisperスタイルのトレーニングを再現する。
データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、オープンサイエンスを促進するための事前訓練されたモデルとトレーニングログを公開します。
論文 参考訳(メタデータ) (2023-09-25T05:01:34Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - HUI-Audio-Corpus-German: A high quality TTS dataset [0.0]
HUI-Audio-Corpus-German"は、TTSエンジン用の大規模なオープンソースデータセットで、処理パイプラインで作成されている。
このデータセットは、高品質なオーディオから書き起こしアライメントを生成し、作成に必要な手作業を減らす。
論文 参考訳(メタデータ) (2021-06-11T10:59:09Z) - DeepSpectrumLite: A Power-Efficient Transfer Learning Framework for
Embedded Speech and Audio Processing from Decentralised Data [0.0]
DeepSpectrumLiteは、オンデバイス音声と音声認識のためのオープンソースの軽量転送学習フレームワークです。
このフレームワークは、Mel-spectrogramプロットを生の音声信号からオンザフライで作成し、拡張する。
DenseNet121モデルがコンシューマグレードのMotorola moto e7+スマートフォンで使用される場合、パイプライン全体を242.0ミリ秒の推論ラグでリアルタイムに実行できる。
論文 参考訳(メタデータ) (2021-04-23T14:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。