論文の概要: Phonetic and Lexical Discovery of a Canine Language using HuBERT
- arxiv url: http://arxiv.org/abs/2402.15985v1
- Date: Sun, 25 Feb 2024 04:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:02:34.820614
- Title: Phonetic and Lexical Discovery of a Canine Language using HuBERT
- Title(参考訳): HuBERTを用いたイヌ言語の音韻的・語彙的発見
- Authors: Xingyuan Li, Sinong Wang, Zeyu Xie, Mengyue Wu, Kenny Q. Zhu
- Abstract要約: 本稿では,犬の発声における潜在的なコミュニケーションパターンについて検討し,従来の言語分析障壁を超越する。
本稿では,HuBERTを用いた自己教師型アプローチを提案し,音素ラベルの正確な分類を可能にした。
我々は,ユーザのアップロードした犬の音声に語彙内に存在する音素n-gramを強調表示するWebベースの犬声分類ラベリングシステムを開発した。
- 参考スコア(独自算出の注目度): 40.578021131708155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper delves into the pioneering exploration of potential communication
patterns within dog vocalizations and transcends traditional linguistic
analysis barriers, which heavily relies on human priori knowledge on limited
datasets to find sound units in dog vocalization. We present a self-supervised
approach with HuBERT, enabling the accurate classification of phoneme labels
and the identification of vocal patterns that suggest a rudimentary vocabulary
within dog vocalizations. Our findings indicate a significant acoustic
consistency in these identified canine vocabulary, covering the entirety of
observed dog vocalization sequences. We further develop a web-based dog
vocalization labeling system. This system can highlight phoneme n-grams,
present in the vocabulary, in the dog audio uploaded by users.
- Abstract(参考訳): 本稿では,犬の発声における潜在的なコミュニケーションパターンの先駆的探究を探究し,犬発声の音響単位を見つけるために限られたデータセットに人間の事前知識を多く依存する従来の言語分析障壁を超越する。
我々は,HuBERTを用いた自己教師型アプローチを提案し,音素ラベルの正確な分類と,犬の発声における初発語彙を示唆する発声パターンの同定を可能にした。
以上の結果より, 犬声の発声シーケンス全体をカバーする, 犬語彙の音響的整合性が示唆された。
さらに,Web ベースの犬の発声ラベリングシステムを開発した。
このシステムは,ユーザがアップロードした犬の音声に,語彙に含まれる音素n-gramをハイライトすることができる。
関連論文リスト
- Silent Signals, Loud Impact: LLMs for Word-Sense Disambiguation of Coded Dog Whistles [47.61526125774749]
犬の笛は、特定の聴衆に二次的な意味を持ち、しばしば人種的・社会経済的差別のために武器化された符号化通信の一種である。
本稿では,Large Language Models (LLMs) を用いた標準音声からの犬笛の単語センスの曖昧化手法を提案する。
我々はこの手法を利用して、フォーマルで非公式なコミュニケーションに使用される犬の口笛の16,550個の高信頼符号化されたサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2024-06-10T23:09:19Z) - Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification [23.974783158267428]
犬の樹皮分類課題に対処するために,人間の音声で事前訓練した自己教師付き音声表現モデルの利用について検討する。
音声埋め込み表現の使用は、より単純な分類基準よりも大幅に改善されることを示す。
また、大規模人間の音声音響学で事前訓練されたモデルでは、いくつかのタスクでさらなる性能向上が期待できる。
論文 参考訳(メタデータ) (2024-04-29T14:41:59Z) - ISPA: Inter-Species Phonetic Alphabet for Transcribing Animal Sounds [6.751004034983776]
動物音をテキストに変換するための正確で簡潔かつ解釈可能なシステムISPA(Inter-Species Phonetic Alphabet)を紹介する。
我々は,言語モデルのような,確立された言語MLパラダイムやモデルが,性能向上のためにうまく適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-05T18:27:27Z) - Towards Lexical Analysis of Dog Vocalizations via Online Videos [19.422796780268605]
本研究は, 犬声のセマンティクスに関するデータ駆動調査を行い, 異なる音種と一貫したセマンティクスを関連づけることにより, 犬声のセマンティクスについて検討した。
そこで我々はまず,シバイヌの音の新たなデータセットと,YouTubeから収集した位置情報や活動などのコンテキスト情報を提示する。
犬の発声とそれに対応する位置と活動の条件付き確率の分析から, 犬音の意味的意味に関する過去の研究の裏付けとなる証拠が発見された。
論文 参考訳(メタデータ) (2023-09-21T23:53:14Z) - Does My Dog ''Speak'' Like Me? The Acoustic Correlation between Pet Dogs
and Their Human Owners [19.422796780268605]
本稿では,犬声の表情と人間の言語環境との相関性について予備的検討を行った。
われわれはまず、シバイヌの犬の声のデータセットをYouTubeから公開し、7500曲のクリーンなサウンドクリップを提供している。
分類課題と顕著な因子分析により,2つの言語環境における声道の音響的差異が顕著であることがわかった。
論文 参考訳(メタデータ) (2023-09-21T23:49:21Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - JukeBox: A Multilingual Singer Recognition Dataset [17.33151600403503]
textitJukeBoxは、歌手のアイデンティティ、性別、言語ラベルを付加した多言語歌声音声付き話者認識データセットである。
音声のみを訓練したモデルを用いて歌唱音声における話者認識の難しさを示すために,現在最先端の手法を用いている。
論文 参考訳(メタデータ) (2020-08-08T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。