論文の概要: audino: A Modern Annotation Tool for Audio and Speech
- arxiv url: http://arxiv.org/abs/2006.05236v2
- Date: Sun, 28 Nov 2021 09:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:20:30.363526
- Title: audino: A Modern Annotation Tool for Audio and Speech
- Title(参考訳): audino: 音声と音声のための現代的なアノテーションツール
- Authors: Manraj Singh Grover, Pakhi Bamdev, Ratin Kumar Brala, Yaman Kumar,
Mika Hama, Rajiv Ratn Shah
- Abstract要約: audinoは、音声の時間分割を定義し、記述するためのツールである。
管理者は、ユーザロールとプロジェクト割り当てを集中的に制御することができる。
このツールの柔軟性は、音声認識、音声活動検出(VAD)、話者識別、話者識別、音声認識、感情認識などのアノテーションを可能にする。
- 参考スコア(独自算出の注目度): 47.923092635544556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a collaborative and modern annotation tool for
audio and speech: audino. The tool allows annotators to define and describe
temporal segmentation in audios. These segments can be labelled and transcribed
easily using a dynamically generated form. An admin can centrally control user
roles and project assignment through the admin dashboard. The dashboard also
enables describing labels and their values. The annotations can easily be
exported in JSON format for further analysis. The tool allows audio data and
their corresponding annotations to be uploaded and assigned to a user through a
key-based API. The flexibility available in the annotation tool enables
annotation for Speech Scoring, Voice Activity Detection (VAD), Speaker
Diarisation, Speaker Identification, Speech Recognition, Emotion Recognition
tasks and more. The MIT open source license allows it to be used for academic
and commercial projects.
- Abstract(参考訳): 本稿では,音声と音声の協調的かつ現代的なアノテーションツールであるAudinoを紹介する。
このツールは、アノテータが音声の時間分割を定義し、記述することができる。
これらのセグメントは動的に生成された形式を使って簡単にラベル付け・転写することができる。
管理者は、管理者ダッシュボードを通じて、ユーザの役割とプロジェクト割り当てを集中的に制御することができる。
ダッシュボードではラベルとその値の記述も可能だ。
アノテーションはJSON形式で簡単にエクスポートでき、さらなる分析が可能になる。
このツールは、キーベースのAPIを通じてオーディオデータとそのアノテーションをアップロードし、ユーザに割り当てることを可能にする。
このアノテーションツールで利用可能な柔軟性は、音声スコアリング、音声アクティビティ検出(vad)、話者ダイアリゼーション、話者識別、音声認識、感情認識タスクなどのアノテーションを可能にする。
mitオープンソースライセンスは、学術的および商業的なプロジェクトに利用することができる。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。
注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文 参考訳(メタデータ) (2023-09-18T14:59:10Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Experiences with the Introduction of AI-based Tools for Moderation
Automation of Voice-based Participatory Media Forums [0.5243067689245634]
我々は、空白またはノイズの多い音声をフィルタリングするAIツールを導入し、音声認識を使ってテキストで音声メッセージを書き起こし、自然言語処理技術を使って音声書き起こしからメタデータを抽出する。
本稿では,これらのツールの導入による時間とコスト削減の点から,AIベースの自動化のワークフローへの受容性に対するモデレーターのフィードバックについて述べる。
我々の研究は、いくつかのルーチンタスクの自動化にAIを使用する場合のケーススタディを形成しており、特に、発展途上国における音声技術の使用に関わる他の研究者や実践者には特に関係がある。
論文 参考訳(メタデータ) (2021-08-09T17:50:33Z) - Adversarial Disentanglement of Speaker Representation for
Attribute-Driven Privacy Preservation [17.344080729609026]
話者音声表現における属性駆動プライバシー保存の概念について紹介する。
これにより、悪意のあるインターセプターやアプリケーションプロバイダに1つ以上の個人的な側面を隠すことができる。
本稿では,話者属性の音声表現に絡み合った逆自動符号化手法を提案し,その隠蔽を可能にする。
論文 参考訳(メタデータ) (2020-12-08T14:47:23Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z) - Seshat: A tool for managing and verifying annotation campaigns of audio
data [38.98439939494304]
Seshatは、音声コーパスのアノテーションを効率的に管理する、新しくてシンプルでオープンソースのソフトウェアである。
ユーザーは大きなオーディオコーパスのアノテーションをカスタマイズして管理できる。
論文 参考訳(メタデータ) (2020-03-03T12:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。