論文の概要: Does My Dog ''Speak'' Like Me? The Acoustic Correlation between Pet Dogs
and Their Human Owners
- arxiv url: http://arxiv.org/abs/2309.13085v1
- Date: Thu, 21 Sep 2023 23:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 22:24:57.562552
- Title: Does My Dog ''Speak'' Like Me? The Acoustic Correlation between Pet Dogs
and Their Human Owners
- Title(参考訳): 私の犬は私を好きですか。
ペット犬と飼い主の音響的関係
- Authors: Jieyi Huang, Chunhao Zhang, Yufei Wang, Mengyue Wu, Kenny Zhu
- Abstract要約: 本稿では,犬声の表情と人間の言語環境との相関性について予備的検討を行った。
われわれはまず、シバイヌの犬の声のデータセットをYouTubeから公開し、7500曲のクリーンなサウンドクリップを提供している。
分類課題と顕著な因子分析により,2つの言語環境における声道の音響的差異が顕著であることがわかった。
- 参考スコア(独自算出の注目度): 19.422796780268605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How hosts language influence their pets' vocalization is an interesting yet
underexplored problem. This paper presents a preliminary investigation into the
possible correlation between domestic dog vocal expressions and their human
host's language environment. We first present a new dataset of Shiba Inu dog
vocals from YouTube, which provides 7500 clean sound clips, including their
contextual information of these vocals and their owner's speech clips with a
carefully-designed data processing pipeline. The contextual information
includes the scene category in which the vocal was recorded, the dog's location
and activity. With a classification task and prominent factor analysis, we
discover significant acoustic differences in the dog vocals from the two
language environments. We further identify some acoustic features from dog
vocalizations that are potentially correlated to their host language patterns.
- Abstract(参考訳): ホスト言語がペットの発声にどのように影響するかは、興味深いが未熟な問題である。
本稿では,飼い犬の発声表現とホストの言語環境との相関性について予備的な検討を行う。
まず,youtubeの柴犬犬犬ボーカルのデータセットを提示し,これらのボーカルのコンテキスト情報や飼い主の音声クリップを含む7500のクリーンな音声クリップを,注意深く設計されたデータ処理パイプラインで提供する。
文脈情報は、声が録音されたシーンカテゴリ、犬の位置と活動を含む。
分類課題と顕著な因子分析により,2言語環境における声道の音響的差異が顕著であることがわかった。
さらに,犬声の音響的特徴を,ホスト言語パターンと相関する可能性が示唆された。
関連論文リスト
- Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification [23.974783158267428]
犬の樹皮分類課題に対処するために,人間の音声で事前訓練した自己教師付き音声表現モデルの利用について検討する。
音声埋め込み表現の使用は、より単純な分類基準よりも大幅に改善されることを示す。
また、大規模人間の音声音響学で事前訓練されたモデルでは、いくつかのタスクでさらなる性能向上が期待できる。
論文 参考訳(メタデータ) (2024-04-29T14:41:59Z) - Phonetic and Lexical Discovery of a Canine Language using HuBERT [40.578021131708155]
本稿では,犬の発声における潜在的なコミュニケーションパターンについて検討し,従来の言語分析障壁を超越する。
本稿では,HuBERTを用いた自己教師型アプローチを提案し,音素ラベルの正確な分類を可能にした。
我々は,ユーザのアップロードした犬の音声に語彙内に存在する音素n-gramを強調表示するWebベースの犬声分類ラベリングシステムを開発した。
論文 参考訳(メタデータ) (2024-02-25T04:35:45Z) - Towards Lexical Analysis of Dog Vocalizations via Online Videos [19.422796780268605]
本研究は, 犬声のセマンティクスに関するデータ駆動調査を行い, 異なる音種と一貫したセマンティクスを関連づけることにより, 犬声のセマンティクスについて検討した。
そこで我々はまず,シバイヌの音の新たなデータセットと,YouTubeから収集した位置情報や活動などのコンテキスト情報を提示する。
犬の発声とそれに対応する位置と活動の条件付き確率の分析から, 犬音の意味的意味に関する過去の研究の裏付けとなる証拠が発見された。
論文 参考訳(メタデータ) (2023-09-21T23:53:14Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Do Orcas Have Semantic Language? Machine Learning to Predict Orca
Behaviors Using Partially Labeled Vocalization Data [50.02992288349178]
機械学習が発声から振舞いを予測できるかどうかを検討する。
私たちはMcMurdo Sound orcasの最近の録音で作業しています。
最近の機械学習技術と慎重に組み合わせることで、96.4%の分類精度が得られる。
論文 参考訳(メタデータ) (2023-01-28T06:04:22Z) - Speak Like a Dog: Human to Non-human creature Voice Conversion [19.703397078178]
H2NH-VCは、人間の発話を人間以外の生物のような音声に変換することを目的としている。
本研究では,「犬のように話す」タスクの可能性と特徴を明らかにするために,比較実験を行った。
変換音声は, 平均評価スコアを用いて評価された: 犬の類似性, 音質, 知性, 文字誤り率(CER)
論文 参考訳(メタデータ) (2022-06-09T22:10:43Z) - Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition [13.373579620368046]
VocalSoundのデータセットは、21,000件以上のクラウドソースによる笑い声、うさぎ声、うなり声、喉のクリアリング、くしゃみ、嗅ぎ声の録音で構成されています。
実験の結果,既存のデータセットにVocalSoundデータセットを追加することで,モデルの音声認識性能を41.9%向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-05-06T18:08:18Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。