論文の概要: Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event
Parser
- arxiv url: http://arxiv.org/abs/2305.17343v2
- Date: Mon, 2 Oct 2023 08:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 17:35:34.811224
- Title: Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event
Parser
- Title(参考訳): モダリティ非依存教師が弱い教師の視聴覚イベントパーサに出会う
- Authors: Yung-Hsuan Lai, Yen-Chun Chen, Yu-Chiang Frank Wang
- Abstract要約: 未探索のアンアライメント・セッティングについて検討し、そのゴールは、弱いラベルしか観測されていないビデオにおいて、音声や視覚イベントを認識することである。
この挑戦的な環境での学習を強化するため、大規模で対照的に事前訓練されたモデルをモダリティ教師として組み込んだ。
VALOR(Visual-Audio Label Elaboration)と呼ばれる、シンプルで効果的で汎用的な手法は、トレーニングイベントのモダリティラベルを抽出するために革新されている。
- 参考スコア(独自算出の注目度): 34.19935635508947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual learning has been a major pillar of multi-modal machine
learning, where the community mostly focused on its modality-aligned setting,
i.e., the audio and visual modality are both assumed to signal the prediction
target. With the Look, Listen, and Parse dataset (LLP), we investigate the
under-explored unaligned setting, where the goal is to recognize audio and
visual events in a video with only weak labels observed. Such weak video-level
labels only tell what events happen without knowing the modality they are
perceived (audio, visual, or both). To enhance learning in this challenging
setting, we incorporate large-scale contrastively pre-trained models as the
modality teachers. A simple, effective, and generic method, termed Visual-Audio
Label Elaboration (VALOR), is innovated to harvest modality labels for the
training events. Empirical studies show that the harvested labels significantly
improve an attentional baseline by 8.0 in average F-score (Type@AV).
Surprisingly, we found that modality-independent teachers outperform their
modality-fused counterparts since they are noise-proof from the other
potentially unaligned modality. Moreover, our best model achieves the new
state-of-the-art on all metrics of LLP by a substantial margin (+5.4 F-score
for Type@AV). VALOR is further generalized to Audio-Visual Event Localization
and achieves the new state-of-the-art as well. Code is available at:
https://github.com/Franklin905/VALOR.
- Abstract(参考訳): 音声視覚学習はマルチモーダル機械学習の主要な柱であり、コミュニティは主にそのモダリティに沿った設定に焦点を当てている。
look, listen, parse dataset (llp) を用いて未検討のアンアライメント設定を調査し,弱ラベルのみ観察したビデオ内の音声と視覚イベントの認識を目標とした。
このような弱いビデオレベルのラベルは、知覚されるモダリティ(オーディオ、視覚、またはその両方)を知らずに、何が起こるかのみを知らせる。
この困難な環境での学習を強化するために,モダリティ教師として大規模コントラスト・事前学習モデルを取り入れた。
VALOR(Visual-Audio Label Elaboration)と呼ばれる、シンプルで効果的で汎用的な手法は、トレーニングイベントのモダリティラベルを抽出するために革新されている。
経験的な研究では、収穫されたラベルは平均f-score (type@av) で8.0の注目ベースラインを大幅に改善している。
驚くことに、モダリティ非依存の教師は、モダリティと融合した教師よりも、他の非アライメントモダリティよりもノイズ耐性が高いことが分かりました。
さらに,本モデルでは,LLPのすべての測定値における新たな最先端化を実現している(Type@AVでは+5.4Fスコア)。
VALORはAudio-Visual Event Localizationにさらに一般化され、新しい最先端技術も実現している。
コードはhttps://github.com/franklin905/valor.com/。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - CoLeaF: A Contrastive-Collaborative Learning Framework for Weakly Supervised Audio-Visual Video Parsing [23.100602876056165]
弱教師付き音声視覚ビデオ解析手法は,ビデオレベルラベルのみを用いて,可聴性のみ,可視性のみ,可視性のみ,可聴性のみを検出することを目的としている。
埋め込み空間におけるクロスモーダルコンテキストの統合を最適化する新しい学習フレームワークであるCoLeaFを提案する。
我々の実験は、CoLeaFがデータセット上で平均1.9%と2.4%のFスコアで最先端の結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-05-17T10:51:15Z) - EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning [36.012107899738524]
音声・視覚のコントラスト学習に等価性を利用する新しいフレームワークであるEquiAVを紹介する。
我々のアプローチは、共有注意に基づく変換予測器によって促進される音声視覚学習への同値性の拡張から始まる。
多様な拡張から代表的な埋め込みへの機能の集約を可能にし、堅牢な監視を可能にします。
論文 参考訳(メタデータ) (2024-03-14T15:44:19Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Positive Sample Propagation along the Audio-Visual Event Line [29.25572713908162]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。
我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
論文 参考訳(メタデータ) (2021-04-01T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。