Fugu-MT 論文翻訳(概要): Multimodal Fusion Method with Spatiotemporal Sequences and Relationship Learning for Valence-Arousal Estimation

論文の概要: Multimodal Fusion Method with Spatiotemporal Sequences and Relationship Learning for Valence-Arousal Estimation

arxiv url: http://arxiv.org/abs/2403.12425v1
Date: Tue, 19 Mar 2024 04:25:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 15:22:07.563196
Title: Multimodal Fusion Method with Spatiotemporal Sequences and Relationship Learning for Valence-Arousal Estimation
Title（参考訳）: 時空間列を用いた多モーダル融合法と相関学習による有理-覚醒推定
Authors: Jun Yu, Gongpeng Zhao, Yongqi Wan, Zhihong Wei, Yang Zheng, Zerui Zhang, Zhongpeng Cai, Guochen Xie, Jichao Zhu, Wangyuan Zhu,
Abstract要約: 本稿では,ABA6コンペティションにおけるVA(Valence-Arousal)推定タスクに対するアプローチを提案する。映像フレームと音声セグメントを前処理して視覚的・音声的特徴を抽出する包括的モデルを考案した。我々は、Transformerエンコーダ構造を用いて長距離依存を学習し、モデルの性能と一般化能力を向上させる。
参考スコア（独自算出の注目度）: 9.235001108781542
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents our approach for the VA (Valence-Arousal) estimation task in the ABAW6 competition. We devised a comprehensive model by preprocessing video frames and audio segments to extract visual and audio features. Through the utilization of Temporal Convolutional Network (TCN) modules, we effectively captured the temporal and spatial correlations between these features. Subsequently, we employed a Transformer encoder structure to learn long-range dependencies, thereby enhancing the model's performance and generalization ability. Our method leverages a multimodal data fusion approach, integrating pre-trained audio and video backbones for feature extraction, followed by TCN-based spatiotemporal encoding and Transformer-based temporal information capture. Experimental results demonstrate the effectiveness of our approach, achieving competitive performance in VA estimation on the AffWild2 dataset.
Abstract（参考訳）: 本稿では,ABAW6コンペティションにおけるVA(Valence-Arousal)推定課題について述べる。映像フレームと音声セグメントを前処理して視覚的・音声的特徴を抽出する包括的モデルを考案した。時間的畳み込みネットワーク(TCN)モジュールの利用により,これらの特徴間の時間的および空間的相関を効果的に捉えた。その後、Transformerエンコーダ構造を用いて長距離依存を学習し、モデルの性能と一般化能力を向上させる。提案手法はマルチモーダルデータ融合手法を利用して,事前学習した音声とビデオのバックボーンを特徴抽出に利用し,次にTCNベースの時空間符号化とTransformerベースの時間情報キャプチャを行う。 AffWild2データセットを用いたVA推定において,提案手法の有効性を示す実験結果が得られた。

関連論文リスト

GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Contrastive and Generative Pretraining [64.72014392166625]
GMS-CAVPは、マルチスケールビデオ・オーディオアライメントとマルチスケール空間時間拡散に基づく事前学習目的を組み合わせた、新しいフレームワークである。まず、GMS-CAVPは、様々な粒度にわたる意味的および時間的関係をキャプチャするマルチスケールのコントラスト学習戦略を導入する。第2に、拡散に基づく生成目的を組み込むことにより、従来のコントラスト学習を超越し、ビデオとオーディオ間のモダリティ変換と合成を可能にする。
論文参考訳（メタデータ） (2026-01-27T13:43:32Z)
Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Interactive Multimodal Fusion with Temporal Modeling [11.506800500772734]
本手法では,マルチモーダル・フレームワークを通じて視覚情報と音声情報を統合する。ビジュアルブランチは、トレーニング済みのResNetモデルを使用して、顔画像から特徴を抽出する。オーディオブランチは、トレーニング済みのVGGモデルを使用して、音声信号からVGGishとLogMelの特徴を抽出する。提案手法は,Aff-Wild2データセット上での競合性能を実現し,VA推定に有効なマルチモーダル融合を実証する。
論文参考訳（メタデータ） (2025-03-13T16:31:56Z)
OMCAT: Omni Context Aware Transformer [27.674943980306423]
OCTAVは、オーディオとビデオ間のイベント遷移をキャプチャするために設計された、新しいデータセットである。 OMCATはRoTEを活用する強力なモデルであり、時間依存タスクにおける時間的グラウンドリングと計算効率を向上させる。本稿では,AVQA(Audio-Visual Question Answering)タスクとOCTAVベンチマークを用いて,時間的推論とモーダルアライメントの大幅な向上を示す。
論文参考訳（メタデータ） (2024-10-15T23:16:28Z)
Spiking Tucker Fusion Transformer for Audio-Visual Zero-Shot Learning [30.51005522218133]
音声・視覚ゼロショット学習のための新しいSTFT(Spking Tucker Fusion Transformer)を提案する。 STFTは、異なる時間ステップからの時間的および意味的な情報を活用して、堅牢な表現を生成する。本稿では,最大と平均のプール操作を組み合わせたグローバルローカルプール(GLP)を提案する。
論文参考訳（メタデータ） (2024-07-11T02:01:26Z)
Sequential Contrastive Audio-Visual Learning [12.848371604063168]
本稿では,非集約的表現空間に基づく実例を対比した逐次コントラスト型音声視覚学習(SCAV)を提案する。 VGGSoundとMusicのデータセットによる実験は、SCAVの有効性を実証している。また、SCAVでトレーニングされたモデルが、検索に使用されるメトリックに関して、かなりの柔軟性を示すことを示す。
論文参考訳（メタデータ） (2024-07-08T09:45:20Z)
TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文参考訳（メタデータ） (2024-04-15T06:01:48Z)
AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts [8.809586885539002]
音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。
論文参考訳（メタデータ） (2024-03-20T15:37:19Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文参考訳（メタデータ） (2023-02-22T12:09:39Z)
With a Little Help from my Temporal Context: Multimodal Egocentric Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文参考訳（メタデータ） (2021-11-01T15:27:35Z)
Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2021-06-30T22:44:12Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。