論文の概要: Structured-Noise Masked Modeling for Video, Audio and Beyond
- arxiv url: http://arxiv.org/abs/2503.16311v1
- Date: Thu, 20 Mar 2025 16:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:04.049925
- Title: Structured-Noise Masked Modeling for Video, Audio and Beyond
- Title(参考訳): ビデオ・オーディオ・その他のための構造化されたマスケプド・モデリング
- Authors: Aritra Bhowmik, Fida Mohammad Thoker, Carlos Hinojosa, Bernard Ghanem, Cees G. M. Snoek,
- Abstract要約: 本稿では,映像・音声データの空間的特性,時間的特性,スペクトル特性と自然に一致させる,構造的ノイズに基づくマスキングを提案する。
提案手法は,計算オーバーヘッドを伴わずに,マスク付きビデオ・オーディオ・モデリング・フレームワークの性能を向上させる。
- 参考スコア(独自算出の注目度): 74.6545360752605
- License:
- Abstract: Masked modeling has emerged as a powerful self-supervised learning framework, but existing methods largely rely on random masking, disregarding the structural properties of different modalities. In this work, we introduce structured noise-based masking, a simple yet effective approach that naturally aligns with the spatial, temporal, and spectral characteristics of video and audio data. By filtering white noise into distinct color noise distributions, we generate structured masks that preserve modality-specific patterns without requiring handcrafted heuristics or access to the data. Our approach improves the performance of masked video and audio modeling frameworks without any computational overhead. Extensive experiments demonstrate that structured noise masking achieves consistent improvement over random masking for standard and advanced masked modeling methods, highlighting the importance of modality-aware masking strategies for representation learning.
- Abstract(参考訳): マスケド・モデリングは強力な自己教師付き学習フレームワークとして登場したが、既存の手法は主にランダム・マスキングに依存しており、異なるモダリティの構造的特性を無視している。
本研究では,映像・音声データの空間的,時間的,スペクトル的特性と自然に一致させる,構造的ノイズに基づくマスキングを提案する。
ホワイトノイズを異なる色の雑音分布にフィルタすることにより、手作りのヒューリスティックやデータへのアクセスを必要とせずに、モダリティ固有のパターンを保存できる構造化マスクを生成する。
提案手法は,計算オーバーヘッドを伴わずに,マスク付きビデオ・オーディオ・モデリング・フレームワークの性能を向上させる。
広汎な実験により、構造化ノイズマスキングは、標準および高度マスキングモデルにおけるランダムマスキングよりも一貫した改善を実現し、表現学習におけるモダリティを考慮したマスキング戦略の重要性を強調した。
関連論文リスト
- From Pixels to Components: Eigenvector Masking for Visual Representation Learning [55.567395509598065]
画像の可視部分からマスクを予測することは、視覚表現学習のための強力な自己教師型アプローチである。
本稿では,生のピクセルではなく,適切なデータ変換を行うマスキング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-10T10:06:46Z) - EH-MAM: Easy-to-Hard Masked Acoustic Modeling for Self-Supervised Speech Representation Learning [46.66166658067071]
EH-MAM (Easy-to-Hard Adaptive Masked Acoustic Modeling) は,音声表現学習のための新しい自己教師型学習手法である。
マスク付き音響モデリング(MAM)のための新しい選択的適応マスキング手法を提案する。
EH-MAMは、様々な低リソース音声認識とSUPERBベンチマークにおいて、最先端のベースラインを5%-10%上回っている。
論文 参考訳(メタデータ) (2024-10-17T02:59:22Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Asymmetric Mask Scheme for Self-Supervised Real Image Denoising [14.18283674891189]
本稿では,盲点操作を不要とする自己指導型聴覚訓練のためのマスク方式を提案する。
提案手法は,非対称マスク方式をトレーニングや推論に用い,既存の実雑音画像データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-09T03:01:28Z) - Denoising Diffusion Semantic Segmentation with Mask Prior Modeling [61.73352242029671]
本稿では,従来の識別的アプローチのセマンティックセグメンテーション品質を,デノナイズ拡散生成モデルでモデル化したマスクを用いて改善することを提案する。
市販セグメンタを用いた先行モデルの評価を行い,ADE20KとCityscapesの実験結果から,本手法が競争力のある定量的性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:47:01Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。