論文の概要: Audio-Visual Class-Incremental Learning
- arxiv url: http://arxiv.org/abs/2308.11073v1
- Date: Mon, 21 Aug 2023 22:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:50:51.433652
- Title: Audio-Visual Class-Incremental Learning
- Title(参考訳): 視聴覚クラスインクリメンタルラーニング
- Authors: Weiguo Pian, Shentong Mo, Yunhui Guo, Yapeng Tian
- Abstract要約: 本稿では,音声視覚ビデオ認識のためのクラス増分学習シナリオである音声視覚クラス増分学習を紹介する。
AVE-CI, K-S-CI, VS100-CI に関する実験により, AV-CIL が既存のクラス増分学習法を著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 43.5426465012738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce audio-visual class-incremental learning, a
class-incremental learning scenario for audio-visual video recognition. We
demonstrate that joint audio-visual modeling can improve class-incremental
learning, but current methods fail to preserve semantic similarity between
audio and visual features as incremental step grows. Furthermore, we observe
that audio-visual correlations learned in previous tasks can be forgotten as
incremental steps progress, leading to poor performance. To overcome these
challenges, we propose AV-CIL, which incorporates Dual-Audio-Visual Similarity
Constraint (D-AVSC) to maintain both instance-aware and class-aware semantic
similarity between audio-visual modalities and Visual Attention Distillation
(VAD) to retain previously learned audio-guided visual attentive ability. We
create three audio-visual class-incremental datasets, AVE-Class-Incremental
(AVE-CI), Kinetics-Sounds-Class-Incremental (K-S-CI), and
VGGSound100-Class-Incremental (VS100-CI) based on the AVE, Kinetics-Sounds, and
VGGSound datasets, respectively. Our experiments on AVE-CI, K-S-CI, and
VS100-CI demonstrate that AV-CIL significantly outperforms existing
class-incremental learning methods in audio-visual class-incremental learning.
Code and data are available at: https://github.com/weiguoPian/AV-CIL_ICCV2023.
- Abstract(参考訳): 本稿では,音声視覚ビデオ認識のためのクラス増分学習シナリオである音声視覚クラス増分学習を紹介する。
音声と視覚の同時モデリングは, クラスインクリメンタル学習を改善できるが, 現在の手法では, 漸進的なステップが進むにつれて, 音声と視覚の特徴間の意味的類似性は維持できない。
さらに,前回の課題で学習した視聴覚相関は,漸進的なステップが進むにつれて忘れられ,性能が低下する傾向が観察された。
これらの課題を克服するために,av-cilでは,インスタンス認識とクラス認識の両方の意味的類似性を維持するために,d-avsc(d-audio-visual similarity constraint)を組み込んだav-cilを提案する。
AVE, Kinetics-Sounds, VGGSound100-Class-Incremental, VGGSound100-Class-Incremental, AVE, Kinetics-Sounds, VGGSoundの3つのクラスインクリメンタルデータセットを作成する。
AVE-CI, K-S-CI, VS100-CI を用いた実験により, AV-CIL が既存のクラス増分学習法よりも優れていることが示された。
コードとデータは、https://github.com/weiguopian/av-cil_iccv2023で入手できる。
関連論文リスト
- Continual Audio-Visual Sound Separation [35.06195539944879]
本稿では,新しいクラスに対して連続的に音源を分離することを目的とした,連続的な音声・視覚的音源分離タスクを提案する。
本稿では,クロスモーダルなセマンティックな類似性を維持するために,クロスモーダルな類似度蒸留制限(CrossSDC)を提案する。
実験により、ContAV-Sepは破滅的な忘れを効果的に軽減し、他の継続的な学習ベースラインと比較して著しく優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-11-05T07:09:14Z) - From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Class-Incremental Grouping Network for Continual Audio-Visual Learning [42.284785756540806]
本稿では,カテゴリワイズ・セマンティックな特徴を学習し,連続的な音声視覚学習を実現するクラスインクリメンタル・グルーピング・ネットワーク(CIGN)を提案する。
本稿では,VGGSound-Instruments,VGGSound-100,VGG-Sound Sourcesベンチマークについて広範な実験を行った。
実験の結果、CIGNは最先端のオーディオ視覚的クラスインクリメンタル学習性能を達成できた。
論文 参考訳(メタデータ) (2023-09-11T07:36:16Z) - AKVSR: Audio Knowledge Empowered Visual Speech Recognition by
Compressing Audio Knowledge of a Pretrained Model [53.492751392755636]
本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(AKVSR)を提案する。
提案手法の有効性を広範囲な実験により検証し,広範に使用されているLSS3データセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-15T06:38:38Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。