論文の概要: Multi-Source Transformer Architectures for Audiovisual Scene
Classification
- arxiv url: http://arxiv.org/abs/2210.10212v1
- Date: Tue, 18 Oct 2022 23:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 15:49:08.426443
- Title: Multi-Source Transformer Architectures for Audiovisual Scene
Classification
- Title(参考訳): 視聴覚シーン分類のためのマルチソーストランスフォーマーアーキテクチャ
- Authors: Wim Boes, Hugo Van hamme
- Abstract要約: 映像シーン分類に関するDCASE 2021チャレンジのサブタスク1Bに提案したシステムについて詳述する。
基本的には、聴覚機能と視覚機能を組み合わせて予測を行うマルチソーストランスフォーマーである。
- 参考スコア(独自算出の注目度): 14.160670979300628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, the systems we submitted for subtask 1B of the
DCASE 2021 challenge, regarding audiovisual scene classification, are described
in detail. They are essentially multi-source transformers employing a
combination of auditory and visual features to make predictions. These models
are evaluated utilizing the macro-averaged multi-class cross-entropy and
accuracy metrics.
In terms of the macro-averaged multi-class cross-entropy, our best model
achieved a score of 0.620 on the validation data. This is slightly better than
the performance of the baseline system (0.658).
With regard to the accuracy measure, our best model achieved a score of
77.1\% on the validation data, which is about the same as the performance
obtained by the baseline system (77.0\%).
- Abstract(参考訳): 本報告では,dcase 2021チャレンジのサブタスク1bに対して,視聴覚シーン分類に関するシステムについて詳述する。
基本的にはマルチソーストランスフォーマーで、聴覚と視覚の機能を組み合わせて予測を行う。
これらのモデルは,マクロ平均型クロスエントロピーと精度指標を用いて評価される。
マクロ平均マルチクラスクロスエントロピーでは,検証データに対して0.620のスコアが得られた。
これはベースラインシステム(0.658)のパフォーマンスより若干優れている。
精度尺度については、検証データ上で77.1\%のスコアを得たが、これはベースラインシステムで得られたパフォーマンスとほぼ同程度である(77.0\%)。
関連論文リスト
- Self-DenseMobileNet: A Robust Framework for Lung Nodule Classification using Self-ONN and Stacking-based Meta-Classifier [1.2300841481611335]
Self-DenseMobileNetは胸部X線写真(CXR)における結節と非結節の分類を強化するように設計されている
我々のフレームワークは、入力品質を最適化するために高度な画像標準化と拡張技術を統合している。
外部データセットでテストすると、このフレームワークは89.40%の精度で強力な一般化性を維持した。
論文 参考訳(メタデータ) (2024-10-16T14:04:06Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Evaluation of Speech Representations for MOS prediction [0.7329200485567826]
本稿では,音声品質予測のための特徴抽出モデルの評価を行う。
また,教師付き学習モデルと自己教師付き学習モデルの埋め込みを話者検証モデルの埋め込みと比較するモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-16T17:21:42Z) - Domain Adaptation of Transformer-Based Models using Unlabeled Data for
Relevance and Polarity Classification of German Customer Feedback [1.2999413717930817]
この研究は、ドイツの顧客フィードバックデータセットを扱う際に、トランスフォーマーベースのモデルがいかに効率的であるかを調査する。
実験結果から,Transformerベースのモデルでは,fastTextベースラインに比べて大幅な改善が期待できることがわかった。
論文 参考訳(メタデータ) (2022-12-12T08:32:28Z) - The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 [0.0]
RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
論文 参考訳(メタデータ) (2022-09-21T06:54:24Z) - Using Rater and System Metadata to Explain Variance in the VoiceMOS
Challenge 2022 Dataset [71.93633698146002]
VoiceMOS 2022チャレンジでは、合成音声変換と主観的なラベル付き音声音声合成サンプルのデータセットが提供された。
本研究では,メタデータからの音声品質の主観評価とデータセットの分布不均衡から説明できる分散量について検討する。
論文 参考訳(メタデータ) (2022-09-14T00:45:49Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Improved Multiscale Vision Transformers for Classification and Detection [80.64111139883694]
画像と映像の分類とオブジェクト検出のための統合アーキテクチャとして,MViT(Multiscale Vision Transformer)について検討した。
分割された相対的な位置埋め込みと残留プール接続を組み込んだMViTの改良版を提案する。
我々は、このアーキテクチャを5つのサイズでインスタンス化し、ImageNet分類、COCO検出およびKineeticsビデオ認識のために評価する。
論文 参考訳(メタデータ) (2021-12-02T18:59:57Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - XD at SemEval-2020 Task 12: Ensemble Approach to Offensive Language
Identification in Social Media Using Transformer Encoders [17.14709845342071]
本稿では,ソーシャルメディアにおける攻撃的言語識別のための最新のトランスフォーマーエンコーダと高性能アンサンブルモデルを用いた6つの文書分類モデルを提案する。
分析の結果,アンサンブルモデルでは開発セットの精度が大幅に向上するが,テストセットの精度はそれほど良くないことがわかった。
論文 参考訳(メタデータ) (2020-07-21T17:03:00Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。