論文の概要: Self-supervision and Learnable STRFs for Age, Emotion, and Country
Prediction
- arxiv url: http://arxiv.org/abs/2206.12568v1
- Date: Sat, 25 Jun 2022 06:09:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-03 07:27:52.178839
- Title: Self-supervision and Learnable STRFs for Age, Emotion, and Country
Prediction
- Title(参考訳): 年齢・感情・国予測のための自己スーパービジョンと学習可能なステップ
- Authors: Roshan Sharma, Tyler Vuong, Mark Lindsey, Hira Dhamyal, Rita Singh and
Bhiksha Raj
- Abstract要約: 本研究は,発声音声の年齢,発声国,感情を同時推定するマルチタスク手法を提案する。
本研究では,独立したタスク固有モデルとジョイントモデルによるタスク間の相補性を評価し,異なる特徴集合の相対的強度について検討する。
スペクトル時間受容場に対するスコア融合とHuBERTモデルとの併用によるロバストなデータ前処理は,ExVo-MultiTaskテストスコア0.412を達成できた。
- 参考スコア(独自算出の注目度): 26.860736835176617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a multitask approach to the simultaneous estimation of
age, country of origin, and emotion given vocal burst audio for the 2022 ICML
Expressive Vocalizations Challenge ExVo-MultiTask track. The method of choice
utilized a combination of spectro-temporal modulation and self-supervised
features, followed by an encoder-decoder network organized in a multitask
paradigm. We evaluate the complementarity between the tasks posed by examining
independent task-specific and joint models, and explore the relative strengths
of different feature sets. We also introduce a simple score fusion mechanism to
leverage the complementarity of different feature sets for this task.
We find that robust data preprocessing in conjunction with score fusion over
spectro-temporal receptive field and HuBERT models achieved our best
ExVo-MultiTask test score of 0.412.
- Abstract(参考訳): 本研究では,2022 ICML Expressive Vocalizations Challenge ExVo-MultiTask トラックにおける音声バースト音声の年齢,起源国,感情の同時推定に対するマルチタスク手法を提案する。
選択法は、スペクトル-時間変調と自己教師付き特徴の組み合わせ、次にマルチタスクパラダイムで組織化されたエンコーダ-デコーダネットワークを用いた。
独立したタスク固有モデルとジョイントモデルによるタスク間の相補性を評価し,異なる特徴集合の相対的強みについて検討する。
また,様々な特徴集合の相補性を活用するための簡易スコア融合機構も導入する。
スペクトル時間受容場に対するスコア融合とHuBERTモデルとの併用によるロバストデータ前処理は,ExVo-MultiTaskテストスコア0.412を達成できた。
関連論文リスト
- Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文 参考訳(メタデータ) (2024-09-23T21:27:26Z) - Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation [3.8570045844185237]
マルチトラックデータセットでトレーニングした新しいJEPA(Joint-Embedding Predictive Architecture)であるStem-JEPAを紹介する。
本モデルでは, エンコーダと予測器の2つのネットワークから構成される。
MUSDB18データセットの検索タスクにおいて、本モデルの性能を評価し、ミキシングから欠落した茎を見つける能力を検証した。
論文 参考訳(メタデータ) (2024-08-05T14:34:40Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - Toward Fully Self-Supervised Multi-Pitch Estimation [21.000057864087164]
マルチピッチ推定のための自己教師型学習目標セットを提案する。
これらの目的は、完全に畳み込みのオートエンコーダを訓練して、直接マルチピッチサリエンスグラムを生成するのに十分である。
完全自己教師付きフレームワークは,ポリフォニック・ミックスを一般化し,従来のマルチピッチ・データセットで訓練された教師付きモデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-02-23T19:12:41Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Multitask vocal burst modeling with ResNets and pre-trained
paralinguistic Conformers [11.682025726705122]
本稿では、ICML Expressive Vocalizations Workshop & Competition multitask track(ExVo-MultiTask)への提出時に用いたモデリング手法について述べる。
まず,音声バーストのメル・スペクトログラム表現に様々な大きさの画像分類モデルを適用した。
これらのモデルから、タスクメトリクスの調和平均に関して、ベースラインシステムの21.24%の増加が示されている。
論文 参考訳(メタデータ) (2022-06-24T21:42:16Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Multi-modal Automated Speech Scoring using Attention Fusion [46.94442359735952]
本稿では,非母国英語話者の自発音声の自動評価のための,多モーダルなエンドツーエンドニューラルアプローチを提案する。
我々は、スペクトルや転写から音響的および語彙的手がかりを符号化するために、双方向のリカレント畳み込みニューラルネットワークと双方向長短期記憶ニューラルネットワークを用いる。
語彙と音響の両方への注意が組み合わさってシステム全体の性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2020-05-17T07:53:15Z) - Stepwise Model Selection for Sequence Prediction via Deep Kernel
Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。
結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。
我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文 参考訳(メタデータ) (2020-01-12T09:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。