論文の概要: Hierarchical Semantic Correlation-Aware Masked Autoencoder for Unsupervised Audio-Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2604.04229v1
- Date: Sun, 05 Apr 2026 19:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.99462
- Title: Hierarchical Semantic Correlation-Aware Masked Autoencoder for Unsupervised Audio-Visual Representation Learning
- Title(参考訳): 階層的意味的相関-教師なし音声・視覚表現学習のためのマスキングオートエンコーダ
- Authors: Donghuo Zeng, Hao Niu, Masato Taya,
- Abstract要約: 本稿では,3つの相補的な表現レベルにまたがって意味的一貫性を強制する2経路教師学生フレームワークを提案する。
AVEとVEGASの実験では、強い教師なしベースラインよりも大幅にmAPが改善された。
- 参考スコア(独自算出の注目度): 3.055416693231887
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Learning aligned multimodal embeddings from weakly paired, label-free corpora is challenging: pipelines often provide only pre-extracted features, clips contain multiple events, and spurious co-occurrences. We propose HSC-MAE (Hierarchical Semantic Correlation-Aware Masked Autoencoder), a dual-path teacher-student framework that enforces semantic consistency across three complementary levels of representation - from coarse to fine: (i) global-level canonical-geometry correlation via DCCA, which aligns audio and visual embeddings within a shared modality-invariant subspace; (ii) local-level neighborhood-semantics correlation via teacher-mined soft top-k affinities, which preserves multi-positive relational structure among semantically similar instances; and (iii) sample-level conditional-sufficiency correlation via masked autoencoding, which ensures individual embeddings retain discriminative semantic content under partial observation. Concretely, a student MAE path is trained with masked feature reconstruction and affinity-weighted soft top-k InfoNCE; an EMA teacher operating on unmasked inputs via the CCA path supplies stable canonical geometry and soft positives. Learnable multi-task weights reconcile competing objectives, and an optional distillation loss transfers teacher geometry into the student. Experiments on AVE and VEGAS demonstrate substantial mAP improvements over strong unsupervised baselines, validating that HSC-MAE yields robust and well-structured audio-visual representations.
- Abstract(参考訳): 弱いペアでラベルのないコーパスから整列したマルチモーダルな埋め込みを学習することは難しい。
HSC-MAE (Hierarchical Semantic correlation-Aware Masked Autoencoder) は,3つの相補的な表現レベル – 粗いものから細かいものまで – のセマンティック一貫性を強制する,二重パス型教師学習フレームワークである。
(i)共有モダリティ不変部分空間内の音声と視覚の埋め込みを整列するDCCAによるグローバルレベルの標準幾何相関
(二)教師のソフトトップk親和性による地域レベルの地域-地域間関係の相関
3) 個別の埋め込みが部分的観察下で識別的意味的内容を保持することを保証するマスク自動符号化によるサンプルレベルの条件-十分相関。
具体的には、学生MAEパスをマスク付き特徴再構成と親和性重み付きソフトトップkInfoNCEで訓練し、CCAパスを介して非マスキーク入力で動作するEMA教師は、安定した標準幾何とソフトポジティクスを提供する。
学習可能なマルチタスク重みは競合する目的を調整し、オプションの蒸留損失は教師の幾何学を学生に伝達する。
AVEとVEGASの実験では、強い教師なしベースラインよりも大きなmAP改善が示され、HSC-MAEが頑健でよく構造化されたオーディオ視覚表現をもたらすことが検証された。
関連論文リスト
- PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation [58.1914505657064]
本稿では,クラスレベルのセマンティクスと空間コンテキスト間の知識干渉の課題を軽減するために,単純な並列コストアグリゲーション(PCA-Seg)パラダイムを提案する。
8つのベンチマークの実験では、PCA-Segの各並列ブロックは0.35万のパラメータしか追加せず、最先端のOSPS性能を実現している。
論文 参考訳(メタデータ) (2026-03-18T09:26:43Z) - CurConMix+: A Unified Spatio-Temporal Framework for Hierarchical Surgical Workflow Understanding [1.0692208281858493]
手術行動三重項認識は、楽器、行動、解剖学的標的間の相互作用をモデル化することによって、詳細な外科的行動を理解することを目的としている。
ワークフロー分析とスキルアセスメントにおいて臨床的に重要であるにもかかわらず、進行は重度のクラス不均衡、微妙な視覚的変化、三重項成分間の相互依存によって妨げられている。
本研究では,これらの課題に対処するための空間表現フレームワークであるCurConMixを構築した。
論文 参考訳(メタデータ) (2026-01-18T08:42:10Z) - Multi-label Classification with Panoptic Context Aggregation Networks [61.82285737410154]
本稿では,多次幾何学的文脈を階層的に統合する新しいアプローチであるDeep Panoptic Context Aggregation Network(PanCAN)を紹介する。
PanCANは、ランダムウォークとアテンションメカニズムを組み合わせることで、各スケールで複数階の近傍関係を学習する。
NUS-WIDE、PASCAL VOC、2007、MS-COCOベンチマークの実験は、PanCANが一貫して競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-12-29T14:16:21Z) - SG-XDEAT: Sparsity-Guided Cross-Dimensional and Cross-Encoding Attention with Target-Aware Conditioning in Tabular Learning [0.0]
本稿では,表データの教師あり学習のための新しいフレームワークであるSG-XDEATを提案する。
中心となるSG-XDEATはデュアルストリームエンコーダを使用し、各入力機能を2つの並列表現に分解する。
これらの双対表現は、注意に基づくモジュールの階層的なスタックを通して伝播される。
論文 参考訳(メタデータ) (2025-10-14T15:56:40Z) - TRiCo: Triadic Game-Theoretic Co-Training for Robust Semi-Supervised Learning [15.638836465479619]
TRiCoは、半教師付き学習の構造を再考する、三進的ゲーム理論の共同学習フレームワークである。
既存のSSLフレームワークにおける重要な制限に対処することによって、TRiCoは原則付き、一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-25T20:10:41Z) - A Generalized Learning Framework for Self-Supervised Contrastive Learning [9.01200351672698]
自己教師付きコントラスト学習(SSCL)は、最近、複数の下流タスクにおいて優位性を示した。
本稿では,標準SSCL手法を,整合部と制約部という2つの部分からなる一般化学習フレームワーク(GLF)に一般化する。
論文 参考訳(メタデータ) (2025-08-19T08:00:29Z) - MoSAiC: Multi-Modal Multi-Label Supervision-Aware Contrastive Learning for Remote Sensing [10.207026975603503]
MoSAiCは,モダリティ内およびモダリティ間コントラスト学習を多ラベル教師付きコントラスト学習と共同で最適化する統合フレームワークである。
MoSAiCは、精度、クラスタコヒーレンス、一般化の点で、完全に教師されたベースラインと自己監督されたベースラインの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-07-11T15:33:51Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Connecting Multi-modal Contrastive Representations [50.26161419616139]
マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。
本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。
C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-22T09:44:39Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。