論文の概要: Do Orcas Have Semantic Language? Machine Learning to Predict Orca
Behaviors Using Partially Labeled Vocalization Data
- arxiv url: http://arxiv.org/abs/2302.10983v1
- Date: Sat, 28 Jan 2023 06:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 13:33:12.180338
- Title: Do Orcas Have Semantic Language? Machine Learning to Predict Orca
Behaviors Using Partially Labeled Vocalization Data
- Title(参考訳): Orcasはセマンティック言語を持っているか?
部分ラベル音声データを用いたorca行動予測のための機械学習
- Authors: Sophia Sandholm
- Abstract要約: 機械学習が発声から振舞いを予測できるかどうかを検討する。
私たちはMcMurdo Sound orcasの最近の録音で作業しています。
最近の機械学習技術と慎重に組み合わせることで、96.4%の分類精度が得られる。
- 参考スコア(独自算出の注目度): 50.02992288349178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Orcinus orca (killer whales) exhibit complex calls. They last about a second.
In a call, an orca typically uses multiple frequencies simultaneously, varies
the frequencies, and varies their volumes. Behavior data is hard to obtain
because orcas live under water and travel quickly. Sound data is relatively
easy to capture. As a science goal, we would like to know whether orca
vocalizations constitute a semantic language. We do this by studying whether
machine learning can predict behavior from vocalizations. Such prediction would
also help scientific research and safety applications because one would like to
predict behavior while only having to capture sound. A significant challenge in
this process is lack of labeled data. We work with recent recordings of McMurdo
Sound orcas [Wellard et al. 2020] where each recording is labeled with the
behaviors observed during the recording. This yields a dataset where sound
segments - continuous vocalizations that can be thought of as call sequences or
more general structures - within the recordings are labeled with superfluous
behaviors. Despite that, with a careful combination of recent machine learning
techniques, we achieve 96.4% classification accuracy. This suggests that orcas
do use a semantic language. It is also promising for research and applications.
- Abstract(参考訳): orcinus orca (キラークジラ) は複雑な鳴き声を示す。
約1秒続く。
コールでは、通常、オーカは複数の周波数を同時に使用し、周波数を変え、ボリュームを変える。
行動データは、orcasが水中に生息し、素早く移動するため入手が難しい。
音声データは比較的容易に取得できる。
科学の目標として、オーカの発声が意味言語であるかどうかを知りたい。
機械学習が発声から振舞いを予測できるかどうかを調べることでこれを実現している。
このような予測は、音を捉えるだけで行動を予測することができるため、科学的研究や安全性の応用にも役立つだろう。
このプロセスにおける重要な課題はラベル付きデータの欠如である。
我々は、マクマード・サウンド・オーカス(wellard et al. 2020)の最近の録音について、録音中に観察された挙動をラベル付けした。
これは、音声セグメント(コールシーケンスまたはより一般的な構造と考えることができる連続的な発声)が過剰な振る舞いでラベル付けされるデータセットを生成する。
それにもかかわらず、最近の機械学習技術と慎重に組み合わせることで、96.4%の分類精度が得られる。
これはorcasが意味言語を使っていることを示唆している。
研究や応用にも有望である。
関連論文リスト
- animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics [2.1019401515721583]
animal2vecは、未ラベルの音声から学習し、ラベル付きデータでその理解を洗練する、解釈可能な大きなトランスフォーマーモデルである。
Meerkat Audio Transcriptsは、ヒト以外の地上哺乳動物に関する最大のラベル付きデータセットである。
我々のモデルは,MeerKATの既存の手法と利用可能な NIPS4Bplus Birdong データセットより優れている。
論文 参考訳(メタデータ) (2024-06-03T12:11:01Z) - Towards Lexical Analysis of Dog Vocalizations via Online Videos [19.422796780268605]
本研究は, 犬声のセマンティクスに関するデータ駆動調査を行い, 異なる音種と一貫したセマンティクスを関連づけることにより, 犬声のセマンティクスについて検討した。
そこで我々はまず,シバイヌの音の新たなデータセットと,YouTubeから収集した位置情報や活動などのコンテキスト情報を提示する。
犬の発声とそれに対応する位置と活動の条件付き確率の分析から, 犬音の意味的意味に関する過去の研究の裏付けとなる証拠が発見された。
論文 参考訳(メタデータ) (2023-09-21T23:53:14Z) - Transferable Models for Bioacoustics with Human Language Supervision [0.0]
BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。
分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
論文 参考訳(メタデータ) (2023-08-09T14:22:18Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - DeepFry: Identifying Vocal Fry Using Deep Neural Networks [16.489251286870704]
声質フライ(Vocal fry)は、不規則な声門の開口と低ピッチを特徴とする声質を指す。
不規則な周期性のため、難解な音声は自動音声認識システムに挑戦する。
本稿では,流速音声における難解な音声を検出するためのディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:23:24Z) - Cetacean Translation Initiative: a roadmap to deciphering the
communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。
マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。
開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文 参考訳(メタデータ) (2021-04-17T18:39:22Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。