論文の概要: Towards Leveraging Sequential Structure in Animal Vocalizations
- arxiv url: http://arxiv.org/abs/2511.10190v1
- Date: Fri, 14 Nov 2025 01:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.736861
- Title: Towards Leveraging Sequential Structure in Animal Vocalizations
- Title(参考訳): 動物ボカライゼーションにおけるシーケンス構造の導入に向けて
- Authors: Eklavya Sarkar, Mathew Magimai. -Doss,
- Abstract要約: 本稿では,ベクトル量子化とガムベル・ソフトマックスベクトル量子化によって導出される離散音響トークン列が,時間情報を効果的に捕捉・活用できるかどうかを考察する。
その目的のために、HuBERT埋め込みから生成されるトークンシーケンスのペアワイズ距離分析により、4つのバイオ音響データセットでコールタイプと呼び出し元を識別できることが示されている。
- 参考スコア(独自算出の注目度): 29.151583875937927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Animal vocalizations contain sequential structures that carry important communicative information, yet most computational bioacoustics studies average the extracted frame-level features across the temporal axis, discarding the order of the sub-units within a vocalization. This paper investigates whether discrete acoustic token sequences, derived through vector quantization and gumbel-softmax vector quantization of extracted self-supervised speech model representations can effectively capture and leverage temporal information. To that end, pairwise distance analysis of token sequences generated from HuBERT embeddings shows that they can discriminate call-types and callers across four bioacoustics datasets. Sequence classification experiments using $k$-Nearest Neighbour with Levenshtein distance show that the vector-quantized token sequences yield reasonable call-type and caller classification performances, and hold promise as alternative feature representations towards leveraging sequential information in animal vocalizations.
- Abstract(参考訳): 動物の発声には重要なコミュニケーション情報を持つシーケンシャルな構造が含まれているが、ほとんどの計算バイオ音響学の研究は、時間軸を越えて抽出されたフレームレベルの特徴を平均化し、発声中のサブユニットの順序を破棄する。
本稿では,ベクトル量子化とガムベル・ソフトマックスベクトル量子化による離散音響トークン列が,時間的情報を効果的に捉え,活用できるかどうかを考察する。
その目的のために、HuBERT埋め込みから生成されるトークンシーケンスのペアワイズ距離分析により、4つのバイオ音響データセットでコールタイプと呼び出し元を識別できることが示されている。
k$-Nearest Neighbour と Levenshtein 距離を用いた逐次分類実験により,ベクター量子化トークン列は妥当な呼び出し型および呼手分類性能を示し,動物の発声における逐次情報を活用するための代替特徴表現として公約を保持する。
関連論文リスト
- Entropy-based Coarse and Compressed Semantic Speech Representation Learning [72.18542411704347]
圧縮された意味表現を学習するためのエントロピーに基づく動的集約フレームワークを提案する。
ASR、音声からテキストへの変換、音声変換タスクの実験は、圧縮された表現が密度の高いトークンシーケンスと同等以上のパフォーマンスを示すことを示した。
論文 参考訳(メタデータ) (2025-08-30T13:50:58Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Interpretable Sequence Classification via Discrete Optimization [26.899228003677138]
医療監視や侵入検知といった多くの応用において、早期分類は介入を促すために不可欠である。
本研究では、進化する観測トレースから早期分類を好む配列分類器を学習する。
我々の分類器は解釈可能であり, 説明, 反実的推論, 人為的ループ修正を行う。
論文 参考訳(メタデータ) (2020-10-06T15:31:07Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。