論文の概要: AnnoTheia: A Semi-Automatic Annotation Toolkit for Audio-Visual Speech
Technologies
- arxiv url: http://arxiv.org/abs/2402.13152v1
- Date: Tue, 20 Feb 2024 17:07:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:18:09.746769
- Title: AnnoTheia: A Semi-Automatic Annotation Toolkit for Audio-Visual Speech
Technologies
- Title(参考訳): AnnoTheia:オーディオ・ビジュアル音声技術のための半自動アノテーションツールキット
- Authors: Jos\'e-M. Acosta-Triana, David Gimeno-G\'omez, Carlos-D.
Mart\'inez-Hinarejos
- Abstract要約: 本稿では,シーンとそれに対応する書き起こしを検知するセミオートマチックなアノテーションツールキットAnnoTheiaを提案する。
興味のある言語のためのAnnoTheia作成の完全なプロセスを示すために,スペイン語に対するアクティブ話者検出のための事前学習モデルの適応についても述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: More than 7,000 known languages are spoken around the world. However, due to
the lack of annotated resources, only a small fraction of them are currently
covered by speech technologies. Albeit self-supervised speech representations,
recent massive speech corpora collections, as well as the organization of
challenges, have alleviated this inequality, most studies are mainly
benchmarked on English. This situation is aggravated when tasks involving both
acoustic and visual speech modalities are addressed. In order to promote
research on low-resource languages for audio-visual speech technologies, we
present AnnoTheia, a semi-automatic annotation toolkit that detects when a
person speaks on the scene and the corresponding transcription. In addition, to
show the complete process of preparing AnnoTheia for a language of interest, we
also describe the adaptation of a pre-trained model for active speaker
detection to Spanish, using a database not initially conceived for this type of
task. The AnnoTheia toolkit, tutorials, and pre-trained models are available on
GitHub.
- Abstract(参考訳): 世界中で7000以上の言語が話されている。
しかし、アノテートリソースが不足しているため、現在音声技術によってカバーされているものはごくわずかである。
自己監督型音声表現、近年の大規模な音声コーパス収集、課題の組織化は、この不平等を緩和しているが、ほとんどの研究は主に英語でベンチマークされている。
この状況は、音響と視覚の両方の音声モダリティを含むタスクが処理されると悪化する。
音声・視覚音声技術のための低リソース言語の研究を促進するため,我々は,人物の発話と対応する書き起こしを検知する半自動アノテーションツールキット annotheia を提案する。
さらに,AnnoTheiaを言語として準備するプロセスの完全性を示すために,このタイプのタスクを当初想定していなかったデータベースを用いて,アクティブ話者検出のための事前学習モデルのスペイン語への適応についても述べる。
annotheia toolkit、チュートリアル、事前学習されたモデルはgithubで入手できる。
関連論文リスト
- Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - SALMONN: Towards Generic Hearing Abilities for Large Language Models [24.73033723114979]
音声音声言語音楽オープンニューラルネットワークSALMONNを提案する。
事前訓練されたテキストベースの大規模言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合することによって構築される。
これは、そのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへのステップと見なすことができる。
論文 参考訳(メタデータ) (2023-10-20T05:41:57Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。