論文の概要: A Transformer Framework for Simultaneous Segmentation, Classification, and Caller Identification of Marmoset Vocalization
- arxiv url: http://arxiv.org/abs/2410.23279v2
- Date: Wed, 06 Nov 2024 04:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:20:27.873225
- Title: A Transformer Framework for Simultaneous Segmentation, Classification, and Caller Identification of Marmoset Vocalization
- Title(参考訳): Marmoset Vocalizationの同時セグメンテーション, 分類, キャラ識別のためのトランスフォーマフレームワーク
- Authors: Bin Wu, Shinnosuke Takamichi, Sakriani Sakti, Satoshi Nakamura,
- Abstract要約: 音声通信の研究においては,発声者の身元,着信内容,発声者交換を知ることが不可欠である。
CNNの以前の研究は、マーモセット発声に対する呼分割、分類、発声者の識別のためのジョイントモデルを実現している。
本稿では、Transformerを用いて、マーモセット呼び出しを共同でセグメント化し、分類し、各発声者を特定することを提案する。
- 参考スコア(独自算出の注目度): 26.58036918301359
- License:
- Abstract: Marmoset, a highly vocalized primate, has become a popular animal model for studying social-communicative behavior and its underlying mechanism comparing with human infant linguistic developments. In the study of vocal communication, it is vital to know the caller identities, call contents, and vocal exchanges. Previous work of a CNN has achieved a joint model for call segmentation, classification, and caller identification for marmoset vocalizations. However, the CNN has limitations in modeling long-range acoustic patterns; the Transformer architecture that has been shown to outperform CNNs, utilizes the self-attention mechanism that efficiently segregates information parallelly over long distances and captures the global structure of marmoset vocalization. We propose using the Transformer to jointly segment and classify the marmoset calls and identify the callers for each vocalization.
- Abstract(参考訳): 高度に発声された霊長類であるMarmosetは、人間の幼児の言語発達と比較して、社会的コミュニケーション行動とその基盤となるメカニズムを研究するための一般的な動物モデルとなっている。
音声通信の研究においては,発声者の身元,着信内容,発声者交換を知ることが不可欠である。
CNNの以前の研究は、マーモセット発声に対する呼分割、分類、発声者の識別のためのジョイントモデルを実現している。
しかし、CNNは長距離音響パターンのモデリングに制限があり、CNNより優れていることが示されているトランスフォーマーアーキテクチャは、遠距離で情報を効率的に分離し、マーモセット発声のグローバル構造を捉える自己認識機構を利用している。
本稿では、Transformerを用いて、マーモセット呼び出しを共同でセグメント化し、分類し、各発声者を特定することを提案する。
関連論文リスト
- Multi Modal Information Fusion of Acoustic and Linguistic Data for Decoding Dairy Cow Vocalizations in Animal Welfare Assessment [0.0]
本研究では,マルチモーダルデータ融合技術を用いて乳牛の接触呼をデコードすることを目的とする。
本研究では,自然言語処理モデルを用いて,牛の発声音声の音声記録を書式に転写する。
発声は、苦痛や覚醒に関連する高頻度通話と、満足感や落ち着きに関連する低頻度通話に分類した。
論文 参考訳(メタデータ) (2024-11-01T09:48:30Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Feature Representations for Automatic Meerkat Vocalization Classification [15.642602544201308]
本稿では,自動メエルカット発声解析のための特徴表現について検討する。
2つのデータセットを対象としたコールタイプ分類研究により、人間の音声処理のために開発された特徴抽出法が、自動メエルカット呼分析に効果的に活用できることが明らかになった。
論文 参考訳(メタデータ) (2024-08-27T10:51:51Z) - On the Utility of Speech and Audio Foundation Models for Marmoset Call Analysis [19.205671029694074]
本研究は,4,8,16kHzの事前学習帯域において,音声領域と一般音声領域から派生した特徴表現をマーモセットコールタイプおよび発信者分類タスクに対して評価する。
その結果、より高い帯域幅を持つモデルでは性能が向上し、音声や一般音声での事前学習では同等の結果が得られ、スペクトルベースラインよりも改善されることがわかった。
論文 参考訳(メタデータ) (2024-07-23T12:00:44Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Affective social anthropomorphic intelligent system [1.7849339006560665]
本研究は、感情や性格と人間のような適切な会話をすることができる人間型知的システムを提案する。
特定の感情の属性をマッピングするために,音声スタイルの伝達法も提案されている。
論文 参考訳(メタデータ) (2023-04-19T18:24:57Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。