Fugu-MT 論文翻訳(概要): A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization

論文の概要: A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization

arxiv url: http://arxiv.org/abs/2410.23279v1
Date: Wed, 30 Oct 2024 17:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.478608
Title: A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization
Title（参考訳）: マーモセットボカライゼーションのセグメンテーション, 分類, キャラ識別の同時処理のためのニューラルトランスフォーマフレームワーク
Authors: Bin Wu, Sakriani Sakti, Shinnosuke Takamichi, Satoshi Nakamura,
Abstract要約: マーモセットの発信者の身元、通話内容、発声の交換を知ることは不可欠である。 CNNの以前の研究は、マーモセット発声に対する呼分割、分類、発声者の識別のためのジョイントモデルを実現している。本稿では、Transformerを用いて、マーモセット呼び出しを共同でセグメント化し、分類し、各発声者を特定することを提案する。
参考スコア（独自算出の注目度）: 26.58036918301359
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Marmoset, a highly vocalized primate, has become a popular animal model for studying social-communicative behavior and its underlying mechanism. In the study of vocal communication, it is vital to know the caller identities, call contents, and vocal exchanges. Previous work of a CNN has achieved a joint model for call segmentation, classification, and caller identification for marmoset vocalizations. However, the CNN has limitations in modeling long-range acoustic patterns; the Transformer architecture that has been shown to outperform CNNs, utilizes the self-attention mechanism that efficiently segregates information parallelly over long distances and captures the global structure of marmoset vocalization. We propose using the Transformer to jointly segment and classify the marmoset calls and identify the callers for each vocalization.
Abstract（参考訳）: 高度に発声された霊長類であるマルモセットは、社会的コミュニケーション行動とその基盤となるメカニズムを研究するための一般的な動物モデルとなった。音声通信の研究においては,発声者の身元,着信内容,発声者交換を知ることが不可欠である。 CNNの以前の研究は、マーモセット発声に対する呼分割、分類、発声者の識別のためのジョイントモデルを実現している。しかし、CNNは長距離音響パターンのモデリングに制限があり、CNNより優れていることが示されているトランスフォーマーアーキテクチャは、遠距離で情報を効率的に分離し、マーモセット発声のグローバル構造を捉える自己認識機構を利用している。本稿では、Transformerを用いて、マーモセット呼び出しを共同でセグメント化し、分類し、各発声者を特定することを提案する。

関連論文リスト

Polynomial Mixing for Efficient Self-supervised Speech Encoders [50.58463928808225]
Polynomial Mixer (PoM) はマルチヘッド自己注意の代替品である。 PoMは下流音声認識タスクでその性能を達成する。
論文参考訳（メタデータ） (2026-02-28T14:45:55Z)
Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
Multi Modal Information Fusion of Acoustic and Linguistic Data for Decoding Dairy Cow Vocalizations in Animal Welfare Assessment [0.0]
本研究では,マルチモーダルデータ融合技術を用いて乳牛の接触呼をデコードすることを目的とする。本研究では,自然言語処理モデルを用いて,牛の発声音声の音声記録を書式に転写する。発声は、苦痛や覚醒に関連する高頻度通話と、満足感や落ち着きに関連する低頻度通話に分類した。
論文参考訳（メタデータ） (2024-11-01T09:48:30Z)
SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。 SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文参考訳（メタデータ） (2024-10-05T04:29:55Z)
Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文参考訳（メタデータ） (2024-09-17T17:55:39Z)
Feature Representations for Automatic Meerkat Vocalization Classification [15.642602544201308]
本稿では,自動メエルカット発声解析のための特徴表現について検討する。 2つのデータセットを対象としたコールタイプ分類研究により、人間の音声処理のために開発された特徴抽出法が、自動メエルカット呼分析に効果的に活用できることが明らかになった。
論文参考訳（メタデータ） (2024-08-27T10:51:51Z)
On the Utility of Speech and Audio Foundation Models for Marmoset Call Analysis [19.205671029694074]
本研究は,4,8,16kHzの事前学習帯域において,音声領域と一般音声領域から派生した特徴表現をマーモセットコールタイプおよび発信者分類タスクに対して評価する。その結果、より高い帯域幅を持つモデルでは性能が向上し、音声や一般音声での事前学習では同等の結果が得られ、スペクトルベースラインよりも改善されることがわかった。
論文参考訳（メタデータ） (2024-07-23T12:00:44Z)
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文参考訳（メタデータ） (2024-07-04T16:49:02Z)
Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文参考訳（メタデータ） (2023-08-11T08:03:28Z)
Efficient Monaural Speech Enhancement using Spectrum Attention Fusion [15.8309037583936]
本稿では,自己意図の表現性を保ちながら,モデルの複雑さを著しく低減する音声強調モデルの改良について述べる。音声変換器において,複数の自己認識層を置き換えるための畳み込みモジュールを構築し,より効率的にスペクトル特徴を融合させる。提案モデルでは,SOTAモデルに対して同等あるいはより良い結果が得られるが,Voice Bank + DEMANDデータセット上では,パラメータが0.58Mよりもはるかに小さい。
論文参考訳（メタデータ） (2023-08-04T11:39:29Z)
Transferring Annotator- and Instance-dependent Transition Matrix for Learning from Crowds [88.06545572893455]
現実のクラウドソーシングシナリオでは、ノイズ遷移行列はアノテータとインスタンスに依存します。まず、すべてのアノテータによるノイズパターンの混合をモデル化し、その後、個々のアノテータにこのモデリングを転送する。実験により、合成および実世界のクラウドソーシングデータに対する提案手法の優位性が確認された。
論文参考訳（メタデータ） (2023-06-05T13:43:29Z)
Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文参考訳（メタデータ） (2023-05-30T17:59:26Z)
Affective social anthropomorphic intelligent system [1.7849339006560665]
本研究は、感情や性格と人間のような適切な会話をすることができる人間型知的システムを提案する。特定の感情の属性をマッピングするために,音声スタイルの伝達法も提案されている。
論文参考訳（メタデータ） (2023-04-19T18:24:57Z)
ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文参考訳（メタデータ） (2022-11-23T18:21:09Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Exploring Self-Attention Mechanisms for Speech Separation [11.210834842425955]
本稿では,音声分離のための奥行き変換器について検討する。 SepFormerに関するこれまでの知見は、より難しいノイズとノイズの残響データセットの結果を提供することで拡張します。最後に,音声分離において,Linformers,Lonformers,ReFormersなどの効率的な自己認識機構の利用を初めて検討する。
論文参考訳（メタデータ） (2022-02-06T23:13:27Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
On the Usefulness of Self-Attention for Automatic Speech Recognition with Transformers [40.991809705930955]
我々はウォールストリートジャーナルとスイッチボードで、より低い自己注意/フィードフォワード層エンコーダを持つモデルを訓練する。ベースライン変圧器と比較して、性能低下はなく、小さな利得が観察される。上位エンコーダ層をトレーニングする上で,グローバルな視点は不要である,と結論付けている。
論文参考訳（メタデータ） (2020-11-08T16:01:38Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)
Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文参考訳（メタデータ） (2020-08-07T11:02:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。