Fugu-MT 論文翻訳(概要): Multitask vocal burst modeling with ResNets and pre-trained paralinguistic Conformers

論文の概要: Multitask vocal burst modeling with ResNets and pre-trained paralinguistic Conformers

arxiv url: http://arxiv.org/abs/2206.12494v1
Date: Fri, 24 Jun 2022 21:42:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-28 17:21:27.372435
Title: Multitask vocal burst modeling with ResNets and pre-trained paralinguistic Conformers
Title（参考訳）: resnetsとプリトレーニングパラ言語適合器を用いたマルチタスク音声バーストモデリング
Authors: Josh Belanich, Krishna Somandepalli, Brian Eoff, Brendan Jou
Abstract要約: 本稿では、ICML Expressive Vocalizations Workshop & Competition multitask track(ExVo-MultiTask)への提出時に用いたモデリング手法について述べる。まず,音声バーストのメル・スペクトログラム表現に様々な大きさの画像分類モデルを適用した。これらのモデルから、タスクメトリクスの調和平均に関して、ベースラインシステムの21.24%の増加が示されている。
参考スコア（独自算出の注目度）: 11.682025726705122
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This technical report presents the modeling approaches used in our submission to the ICML Expressive Vocalizations Workshop & Competition multitask track (ExVo-MultiTask). We first applied image classification models of various sizes on mel-spectrogram representations of the vocal bursts, as is standard in sound event detection literature. Results from these models show an increase of 21.24% over the baseline system with respect to the harmonic mean of the task metrics, and comprise our team's main submission to the MultiTask track. We then sought to characterize the headroom in the MultiTask track by applying a large pre-trained Conformer model that previously achieved state-of-the-art results on paralinguistic tasks like speech emotion recognition and mask detection. We additionally investigated the relationship between the sub-tasks of emotional expression, country of origin, and age prediction, and discovered that the best performing models are trained as single-task models, questioning whether the problem truly benefits from a multitask setting.
Abstract（参考訳）: 本稿では,ICML Expressive Vocalizations Workshop & Competition multitask track (ExVo-MultiTask) に提案するモデリング手法について述べる。まず,音声事象検出文献において標準的な音声バーストのメル-スペクトログラム表現に,様々な大きさの画像分類モデルを適用した。これらのモデルから、タスクメトリクスの調和平均に対して、ベースラインシステムに対して21.24%の増加を示し、MultiTaskトラックへのチームのメインサブミッションを構成します。次に,音声感情認識やマスク検出などのパラ言語課題に対して,事前学習した大規模コンフォーメータモデルを適用して,マルチタスクトラックのヘッドルームを特徴付けることを試みた。さらに,感情表現のサブタスクと起原国,年齢予測の関係を調査し,最善のモデルがシングルタスクモデルとして訓練されていることを発見し,マルチタスク設定のメリットを疑問視した。

関連論文リスト

UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文参考訳（メタデータ） (2025-03-16T21:11:25Z)
SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文参考訳（メタデータ） (2024-05-14T03:33:31Z)
MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文参考訳（メタデータ） (2024-04-16T16:50:35Z)
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。 SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文参考訳（メタデータ） (2024-03-20T09:17:22Z)
Concrete Subspace Learning based Interference Elimination for Multi-task Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文参考訳（メタデータ） (2023-12-11T07:24:54Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
Meta-training with Demonstration Retrieval for Efficient Few-shot Learning [11.723856248352007]
大規模な言語モデルは、数ショットのNLPタスクで印象的な結果を示す。これらのモデルはメモリと計算集約である。本稿では,実演検索によるメタトレーニングを提案する。
論文参考訳（メタデータ） (2023-06-30T20:16:22Z)
Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文参考訳（メタデータ） (2023-02-20T15:34:03Z)
OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文参考訳（メタデータ） (2022-12-08T17:07:09Z)
Multi-modal Multi-label Facial Action Unit Detection with Transformer [7.30287060715476]
本稿では,第3回ABAW(Affective Behavior Analysis)2022コンペティションについて述べる。映像中の顔行動単位(FAU)を検出するためのトランスフォーマーモデルを提案した。
論文参考訳（メタデータ） (2022-03-24T18:59:31Z)
CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文参考訳（メタデータ） (2021-09-01T04:18:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。