論文の概要: Investigating Modality Bias in Audio Visual Video Parsing
- arxiv url: http://arxiv.org/abs/2203.16860v1
- Date: Thu, 31 Mar 2022 07:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 03:44:06.747543
- Title: Investigating Modality Bias in Audio Visual Video Parsing
- Title(参考訳): 音声映像解析におけるモダリティバイアスの検討
- Authors: Piyush Singh Pasi, Shubham Nemani, Preethi Jyothi, Ganesh Ramakrishnan
- Abstract要約: 本稿では,時間的境界を持つ音声・視覚イベントラベルを検出するAVVP問題に焦点をあてる。
AVVPの既存の最先端モデルでは、ハイブリットアテンションネットワーク(HAN)を使用して、オーディオと視覚の両モードのクロスモーダルな特徴を生成する。
セグメントレベルとイベントレベルでの視覚的および音声視覚的イベントに対して,Fスコアが約2%と1.6%の絶対的な増加をもたらすHANの特徴集約の変種を提案する。
- 参考スコア(独自算出の注目度): 31.83076679253096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We focus on the audio-visual video parsing (AVVP) problem that involves
detecting audio and visual event labels with temporal boundaries. The task is
especially challenging since it is weakly supervised with only event labels
available as a bag of labels for each video. An existing state-of-the-art model
for AVVP uses a hybrid attention network (HAN) to generate cross-modal features
for both audio and visual modalities, and an attentive pooling module that
aggregates predicted audio and visual segment-level event probabilities to
yield video-level event probabilities. We provide a detailed analysis of
modality bias in the existing HAN architecture, where a modality is completely
ignored during prediction. We also propose a variant of feature aggregation in
HAN that leads to an absolute gain in F-scores of about 2% and 1.6% for visual
and audio-visual events at both segment-level and event-level, in comparison to
the existing HAN model.
- Abstract(参考訳): 我々は,時間境界を持つ音声と映像のイベントラベルを検出するavvp(audio-visual video parsing)問題に焦点を当てた。
このタスクは、各ビデオのラベルの袋として利用可能なイベントラベルだけで、弱く管理されているため、特に難しい。
AVVPの既存の最先端モデルでは、ハイブリットアテンションネットワーク(HAN)を使用して、オーディオと視覚の両方のモダリティのクロスモーダルな特徴を生成する。
既存のHANアーキテクチャでは,予測中にモダリティが完全に無視されるため,モダリティバイアスの詳細な解析を行う。
また,既存のHANモデルと比較して,セグメントレベルおよびイベントレベルの視覚的・音声的イベントに対して,Fスコアが約2%と1.6%の絶対的な増加をもたらす機能アグリゲーションのバリエーションを提案する。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - CoLeaF: A Contrastive-Collaborative Learning Framework for Weakly Supervised Audio-Visual Video Parsing [23.100602876056165]
弱教師付き音声視覚ビデオ解析手法は,ビデオレベルラベルのみを用いて,可聴性のみ,可視性のみ,可視性のみ,可聴性のみを検出することを目的としている。
埋め込み空間におけるクロスモーダルコンテキストの統合を最適化する新しい学習フレームワークであるCoLeaFを提案する。
我々の実験は、CoLeaFがデータセット上で平均1.9%と2.4%のFスコアで最先端の結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-05-17T10:51:15Z) - Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video
Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。
メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。
そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文 参考訳(メタデータ) (2023-11-14T13:27:03Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - Positive Sample Propagation along the Audio-Visual Event Line [29.25572713908162]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。
我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
論文 参考訳(メタデータ) (2021-04-01T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。