論文の概要: Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification
- arxiv url: http://arxiv.org/abs/2404.18739v1
- Date: Mon, 29 Apr 2024 14:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:28:15.831622
- Title: Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification
- Title(参考訳): 犬のバーク復号化に向けて:自動バーク分類のための人間の音声処理を活用する
- Authors: Artem Abzaliev, Humberto Pérez Espinosa, Rada Mihalcea,
- Abstract要約: 犬の樹皮分類課題に対処するために,人間の音声で事前訓練した自己教師付き音声表現モデルの利用について検討する。
音声埋め込み表現の使用は、より単純な分類基準よりも大幅に改善されることを示す。
また、大規模人間の音声音響学で事前訓練されたモデルでは、いくつかのタスクでさらなる性能向上が期待できる。
- 参考スコア(独自算出の注目度): 23.974783158267428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Similar to humans, animals make extensive use of verbal and non-verbal forms of communication, including a large range of audio signals. In this paper, we address dog vocalizations and explore the use of self-supervised speech representation models pre-trained on human speech to address dog bark classification tasks that find parallels in human-centered tasks in speech recognition. We specifically address four tasks: dog recognition, breed identification, gender classification, and context grounding. We show that using speech embedding representations significantly improves over simpler classification baselines. Further, we also find that models pre-trained on large human speech acoustics can provide additional performance boosts on several tasks.
- Abstract(参考訳): 人間と同様に、動物は幅広い音声信号を含む言語的・非言語的なコミュニケーションを広範囲に利用している。
本稿では,犬の声化に対処し,人間の声に事前訓練された自己教師付き音声表現モデルを用いて,音声認識における人間中心タスクの並列性を見出す犬の樹皮分類タスクに対処する。
具体的には、犬認識、品種識別、性別分類、文脈接地という4つの課題に対処する。
音声埋め込み表現の使用は、より単純な分類基準よりも大幅に改善されることを示す。
さらに,大規模音声音響学で事前学習したモデルでは,複数のタスクに対してさらなる性能向上が期待できることがわかった。
関連論文リスト
- Exploring bat song syllable representations in self-supervised audio encoders [0.0]
いくつかの自己教師型オーディオエンコーダにおけるコウモリの音節の符号化について分析する。
人間の発話に事前学習されたモデルは、異なる音節型の最も独特な表現を生成する。
論文 参考訳(メタデータ) (2024-09-19T10:09:31Z) - SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Feature Representations for Automatic Meerkat Vocalization Classification [15.642602544201308]
本稿では,自動メエルカット発声解析のための特徴表現について検討する。
2つのデータセットを対象としたコールタイプ分類研究により、人間の音声処理のために開発された特徴抽出法が、自動メエルカット呼分析に効果的に活用できることが明らかになった。
論文 参考訳(メタデータ) (2024-08-27T10:51:51Z) - Evaluating Speaker Identity Coding in Self-supervised Models and Humans [0.42303492200814446]
話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。
本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。
また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
論文 参考訳(メタデータ) (2024-06-14T20:07:21Z) - Phonetic and Lexical Discovery of a Canine Language using HuBERT [40.578021131708155]
本稿では,犬の発声における潜在的なコミュニケーションパターンについて検討し,従来の言語分析障壁を超越する。
本稿では,HuBERTを用いた自己教師型アプローチを提案し,音素ラベルの正確な分類を可能にした。
我々は,ユーザのアップロードした犬の音声に語彙内に存在する音素n-gramを強調表示するWebベースの犬声分類ラベリングシステムを開発した。
論文 参考訳(メタデータ) (2024-02-25T04:35:45Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。