論文の概要: Self-supervised language learning from raw audio: Lessons from the Zero
Resource Speech Challenge
- arxiv url: http://arxiv.org/abs/2210.15759v1
- Date: Thu, 27 Oct 2022 20:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:00:32.550428
- Title: Self-supervised language learning from raw audio: Lessons from the Zero
Resource Speech Challenge
- Title(参考訳): 生音声からの自己教師型言語学習:ゼロリソース音声チャレンジからの教訓
- Authors: Ewan Dunbar, Nicolas Hamilakis and Emmanuel Dupoux
- Abstract要約: 自己教師型あるいは教師なしの機械学習は、生音声から完全な音声処理システムを構築する可能性を開放した。
2015年以降のゼロ・リソース・スピーチ・チャレンジ(Zero Resource Speech Challenge)シリーズは、この長期的な目標を4つの明確に定義されたタスクに分解することを目的としている。
本稿では,2015年以降のこの課題シリーズの6版の概要を述べるとともに,さらに多くの作業が必要な分野について概説する。
- 参考スコア(独自算出の注目度): 15.67794428589585
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent progress in self-supervised or unsupervised machine learning has
opened the possibility of building a full speech processing system from raw
audio without using any textual representations or expert labels such as
phonemes, dictionaries or parse trees. The contribution of the Zero Resource
Speech Challenge series since 2015 has been to break down this long-term
objective into four well-defined tasks -- Acoustic Unit Discovery, Spoken Term
Discovery, Discrete Resynthesis, and Spoken Language Modeling -- and introduce
associated metrics and benchmarks enabling model comparison and cumulative
progress. We present an overview of the six editions of this challenge series
since 2015, discuss the lessons learned, and outline the areas which need more
work or give puzzling results.
- Abstract(参考訳): 自己教師付きまたは教師なし機械学習の最近の進歩は、テキスト表現や音素、辞書、構文解析木といった専門家ラベルを使わずに、生のオーディオから完全な音声処理システムを構築する可能性を広げた。
2015年からのゼロリソーススピーチチャレンジシリーズの貢献は、この長期的な目標を、音響単位発見、音声項発見、離散的再合成、音声言語モデリングという4つの明確に定義されたタスクに分解し、モデルの比較と累積的な進歩を可能にする関連するメトリクスとベンチマークを導入することである。
本稿では,2015年以降のこの課題シリーズの6版の概要を述べるとともに,さらに多くの作業が必要な分野について概説する。
関連論文リスト
- Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - The Zero Resource Speech Benchmark 2021: Metrics and baselines for
unsupervised spoken language modeling [23.517751578968344]
ラベルのない生音声信号から言語表現を学習する。
自己教師型コントラスト表現学習(CPC)、クラスタリング(k-means)、言語モデリング(LSTMまたはBERT)による合成ベースラインの結果と解析について述べる。
この単純なパイプラインは、4つのメトリクスすべてに対して偶然のパフォーマンスよりも優れており、生の音声による音声言語モデリングの可能性を示している。
論文 参考訳(メタデータ) (2020-11-23T18:01:37Z) - The Zero Resource Speech Challenge 2020: Discovering discrete subword
and word units [40.41406551797358]
Zero Resource Speech Challenge 2020は、ラベルなしで生の音声信号から音声表現を学ぶことを目的としている。
提案した20のモデルの結果を提示し、教師なし音声学習における主な研究結果の意義について考察する。
論文 参考訳(メタデータ) (2020-10-12T18:56:48Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。