論文の概要: Dynamic Inter-Class Confusion-Aware Encoder for Audio-Visual Fusion in Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2507.09323v1
- Date: Sat, 12 Jul 2025 15:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.965492
- Title: Dynamic Inter-Class Confusion-Aware Encoder for Audio-Visual Fusion in Human Activity Recognition
- Title(参考訳): ヒューマンアクティビティ認識のための動的クラス間融合認識エンコーダ
- Authors: Kaixuan Cong, Yifan Wang, Rongkun Xue, Yuyang Jiang, Yiming Feng, Jing Yang,
- Abstract要約: 本稿では,音声映像表現を細かなカテゴリレベルで整列させるエンコーダであるDICCAE(Dynamic Inter-Class Confusion-Aware)を提案する。
DICCAEは、クラス間の混乱度に基づいて、混乱損失を動的に調整することで、カテゴリの混乱に対処する。
また、オーディオとビデオの両方のモダリティと融合を取り入れた新しいトレーニングフレームワークも導入する。
- 参考スコア(独自算出の注目度): 6.814894552541548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans do not understand individual events in isolation; rather, they generalize concepts within classes and compare them to others. Existing audio-video pre-training paradigms only focus on the alignment of the overall audio-video modalities, without considering the reinforcement of distinguishing easily confused classes through cognitive induction and contrast during training. This paper proposes the Dynamic Inter-Class Confusion-Aware Encoder (DICCAE), an encoder that aligns audio-video representations at a fine-grained, category-level. DICCAE addresses category confusion by dynamically adjusting the confusion loss based on inter-class confusion degrees, thereby enhancing the model's ability to distinguish between similar activities. To further extend the application of DICCAE, we also introduce a novel training framework that incorporates both audio and video modalities, as well as their fusion. To mitigate the scarcity of audio-video data in the human activity recognition task, we propose a cluster-guided audio-video self-supervised pre-training strategy for DICCAE. DICCAE achieves near state-of-the-art performance on the VGGSound dataset, with a top-1 accuracy of 65.5%. We further evaluate its feature representation quality through extensive ablation studies, validating the necessity of each module.
- Abstract(参考訳): 人間は個々の出来事を個別に理解せず、クラス内の概念を一般化し、他と比較する。
既存のオーディオビデオ事前学習パラダイムは、学習中の認知誘導とコントラストを通じて、容易に混乱したクラスを区別する強化を考慮せずに、全体的なオーディオビデオモダリティの整合性にのみ焦点をあてる。
本稿では,音声映像表現を細かなカテゴリレベルで整列させるエンコーダであるDICCAE(Dynamic Inter-Class Confusion-Aware Encoder)を提案する。
DICCAEは、クラス間の混乱度に基づいて混乱損失を動的に調整し、類似したアクティビティを識別するモデルの能力を高めることで、カテゴリの混乱に対処する。
また、DICCAEの適用をさらに広げるために、オーディオとビデオの両方のモダリティと融合を取り入れた新しいトレーニングフレームワークを導入する。
人間の活動認識タスクにおける音声映像データの不足を軽減するため,DICCAEのためのクラスタ誘導型オーディオビデオ自己教師型事前学習戦略を提案する。
DICCAEはVGGSoundデータセット上でほぼ最先端のパフォーマンスを達成し、トップ1の精度は65.5%である。
さらに,各モジュールの必要性を検証し,その特徴表現の質を評価する。
関連論文リスト
- Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing [26.2873961811614]
非整合知識のための学習インタラクション手法(リンク)を提案する。
リンクは、イベント予測中に入力を動的に調整することで、異なるモダリティのコントリビューションを均衡させる。
疑似ラベルの意味情報を事前知識として活用し、他のモーダルからノイズを緩和する。
論文 参考訳(メタデータ) (2024-12-30T11:23:15Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - Prompting Segmentation with Sound Is Generalizable Audio-Visual Source
Localizer [22.846623384472377]
本稿では,アンコーダ-プロンプト-デコーダのパラダイムを導入し,融合したオーディオ視覚機能からローカライゼーションをデコードする。
具体的には,まずセマンティック・アウェア・オーディオ・プロンプト (SAP) の構築について提案する。
我々は,視覚基盤モデルの適切な知識を維持しつつ,最小限のトレーニング努力を維持するための相関適応器(ColA)を開発した。
論文 参考訳(メタデータ) (2023-09-13T05:43:35Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Self-supervised Contrastive Learning for Audio-Visual Action Recognition [7.188231323934023]
オーディオとヴィジュアルモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。
本稿では,行動認識のための識別的視覚的表現を学習するための,聴覚・視覚コントラスト学習(A)というエンドツーエンドの自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-28T10:01:36Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。