論文の概要: STELLA: Continual Audio-Video Pre-training with Spatio-Temporal
Localized Alignment
- arxiv url: http://arxiv.org/abs/2310.08204v2
- Date: Fri, 2 Feb 2024 18:31:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:41:08.445966
- Title: STELLA: Continual Audio-Video Pre-training with Spatio-Temporal
Localized Alignment
- Title(参考訳): STELLA: 時空間定位アライメントによる連続的なオーディオビデオ事前トレーニング
- Authors: Jaewoo Lee, Jaehong Yoon, Wonjae Kim, Yunji Kim, and Sung Ju Hwang
- Abstract要約: 様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 61.83340833859382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuously learning a variety of audio-video semantics over time is crucial
for audio-related reasoning tasks in our ever-evolving world. However, this is
a nontrivial problem and poses two critical challenges: sparse spatio-temporal
correlation between audio-video pairs and multimodal correlation overwriting
that forgets audio-video relations. To tackle this problem, we propose a new
continual audio-video pre-training method with two novel ideas: (1) Localized
Patch Importance Scoring: we introduce a multimodal encoder to determine the
importance score for each patch, emphasizing semantically intertwined
audio-video patches. (2) Replay-guided Correlation Assessment: to reduce the
corruption of previously learned audiovisual knowledge due to drift, we propose
to assess the correlation of the current patches on the past steps to identify
the patches exhibiting high correlations with the past steps. Based on the
results from the two ideas, we perform probabilistic patch selection for
effective continual audio-video pre-training. Experimental validation on
multiple benchmarks shows that our method achieves a 3.69%p of relative
performance gain in zero-shot retrieval tasks compared to strong continual
learning baselines, while reducing memory consumption by ~45%.
- Abstract(参考訳): 音声とビデオのセマンティクスを継続的に学習することは、進化を続ける世界のオーディオ関連の推論タスクにとって不可欠である。
しかし、これは非自明な問題であり、オーディオとビデオのペア間のスパース時空間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトの2つの重要な課題を提起する。
この問題に対処するため,(1)局所的パッチ・コンパタンス・スコアリング(Localized Patch Importance Scoring):各パッチの重要スコアを決定するためのマルチモーダル・エンコーダを導入し,セマンティック・インターツウィンド・オーディオ・ビデオ・パッチを強調した。
2) 再生誘導型相関評価: ドリフトによる学習前の聴覚知識の劣化を低減するため, 過去のステップにおける現在のパッチの相関性を評価し, 過去のステップと高い相関性を示すパッチを特定することを提案する。
この2つのアイデアから得られた結果に基づき,音声-ビデオの効果的な事前学習のための確率的パッチ選択を行う。
複数のベンチマークによる実験結果から, ゼロショット検索タスクの相対的性能向上率は, 連続学習ベースラインに比べて3.69%向上し, メモリ消費量は45%削減された。
関連論文リスト
- Missingness-resilient Video-enhanced Multimodal Disfluency Detection [3.3281516035025285]
本稿では,利用可能な映像データと音声を併用したマルチモーダル・ディフルエンシ検出手法を提案する。
私たちのレジリエントなデザインは、推論中にビデオのモダリティが欠落することがある現実世界のシナリオに対応しています。
5つのディフルエンシ検出タスクにわたる実験において、我々の統合マルチモーダルアプローチは、オーディオのみのアンモダル法よりも顕著に優れている。
論文 参考訳(メタデータ) (2024-06-11T05:47:16Z) - Fuse after Align: Improving Face-Voice Association Learning via Multimodal Encoder [22.836016610542387]
本稿では,音声・顔の関連性を学習するための教師なし環境における新しい枠組みを提案する。
コントラスト学習後にマルチモーダルエンコーダを導入し,二分分類によって問題に対処することにより,埋め込み内の暗黙的な情報をより効果的かつ多様な方法で学習することができる。
実験的な証拠は、我々のフレームワークが音声照合、検証、検索タスクにおいて最先端の結果を達成することを証明している。
論文 参考訳(メタデータ) (2024-04-15T07:05:14Z) - Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training [102.18680666349806]
本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。
実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-25T08:22:30Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Noise-Tolerant Learning for Audio-Visual Action Recognition [31.641972732424463]
ビデオデータセットは通常、粗い注釈付きまたはインターネットから収集される。
本稿では,雑音ラベルと雑音対応の両方に対して,反干渉モデルパラメータを求めるための耐雑音性学習フレームワークを提案する。
本手法は,動作認識モデルのロバスト性を大幅に向上し,ベースラインをクリアマージンで越える。
論文 参考訳(メタデータ) (2022-05-16T12:14:03Z) - Recent Advances and Challenges in Deep Audio-Visual Correlation Learning [7.273353828127817]
本稿では,音声と映像の相関関係の学習に使用される最新技術(SOTA)モデルに焦点を当てる。
また、AIマルチメディアに適用された定義とパラダイムのタスクについても論じる。
論文 参考訳(メタデータ) (2022-02-28T10:43:01Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。