論文の概要: ChA-MAEViT: Unifying Channel-Aware Masked Autoencoders and Multi-Channel Vision Transformers for Improved Cross-Channel Learning
- arxiv url: http://arxiv.org/abs/2503.19331v1
- Date: Tue, 25 Mar 2025 03:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:15.131515
- Title: ChA-MAEViT: Unifying Channel-Aware Masked Autoencoders and Multi-Channel Vision Transformers for Improved Cross-Channel Learning
- Title(参考訳): ChA-MAEViT:Channel-Aware Masked AutoencodersとMulti-Channel Vision Transformerを統合したクロスチャネル学習
- Authors: Chau Pham, Juan C. Caicedo, Bryan A. Plummer,
- Abstract要約: ChA-MAEViTは4つの重要な戦略を通じて、マルチチャネルイメージング(MCI)チャネル間の機能学習を強化する。
ChA-MAEViTは最先端のMCI-ViTを3.0-21.5%上回っている。
- 参考スコア(独自算出の注目度): 17.04905100460915
- License:
- Abstract: Prior work using Masked Autoencoders (MAEs) typically relies on random patch masking based on the assumption that images have significant redundancies across different channels, allowing for the reconstruction of masked content using cross-channel correlations. However, this assumption does not hold in Multi-Channel Imaging (MCI), where channels may provide complementary information with minimal feature overlap. Thus, these MAEs primarily learn local structures within individual channels from patch reconstruction, failing to fully leverage cross-channel interactions and limiting their MCI effectiveness. In this paper, we present ChA-MAEViT, an MAE-based method that enhances feature learning across MCI channels via four key strategies: (1) dynamic channel-patch masking, which compels the model to reconstruct missing channels in addition to masked patches, thereby enhancing cross-channel dependencies and improving robustness to varying channel configurations; (2) memory tokens, which serve as long-term memory aids to promote information sharing across channels, addressing the challenges of reconstructing structurally diverse channels; (3) hybrid token fusion module, which merges fine-grained patch tokens with a global class token to capture richer representations; and (4) Channel-Aware Decoder, a lightweight decoder utilizes channel tokens to effectively reconstruct image patches. Experiments on satellite and microscopy datasets, CHAMMI, JUMP-CP, and So2Sat, show that ChA-MAEViT significantly outperforms state-of-the-art MCI-ViTs by 3.0-21.5%, highlighting the importance of cross-channel interactions in MCI.
- Abstract(参考訳): Masked Autoencoders (MAEs) を用いた以前の研究は、画像が異なるチャネル間で大きな冗長性を持つという仮定に基づいて、ランダムなパッチマスキングに頼っていた。
しかし、この仮定はMCI(Multi-Channel Imaging)には当てはまらない。
したがって、これらのMAEはパッチ再構成から個々のチャネル内の局所構造を学習し、チャネル間の相互作用を完全に活用できず、MCIの有効性を制限している。
本稿では,MCIチャネル間の機能学習を強化するMAEベースの手法であるChA-MAEViTを提案する。(1)隠れたチャネルをマスクしたパッチに加えて再構築するためのモデルを補完する動的チャネルパッチマスキング,(2)チャネル間の情報共有を促進するための長期記憶補助として機能するメモリトークン,(3)微細なパッチトークンをグローバルクラストークンにマージしてリッチな表現をキャプチャするハイブリッドトークン融合モジュール,(4)チャネル・アウェア・デコーダ。
CHAMMI、JUMP-CP、So2Satなどの衛星および顕微鏡データセットの実験では、ChA-MAEViTは最先端のMCI-ViTを3.0-21.5%上回っており、MCIにおけるチャネル間相互作用の重要性を強調している。
関連論文リスト
- Enhancing Feature Diversity Boosts Channel-Adaptive Vision Transformers [18.731717752379232]
マルチチャネルイメージング(MCI)モデルは、テスト時に様々なチャネル構成をサポートする必要がある。
最近の研究は、ヴィジュアルトランスフォーマー(ViT)のようなMCIの伝統的なビジュアルエンコーダを拡張し、チャネル構成を表すエンコードでピクセル情報を補う。
MCI-ViTモデルの学習特徴の多様性を高めることを目的としたDiChaViTを提案する。
論文 参考訳(メタデータ) (2024-05-26T03:41:40Z) - SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small Target Detection [46.049401912285134]
赤外線小ターゲット検出(IRSTD)は近年,U字型ニューラルモデルから大きな恩恵を受けている。
既存のテクニックは、ターゲットが背景と高い類似性を持つ場合に苦労する。
本稿では,空間チャネルクロストランスネットワーク(SCTransNet)を提案する。
論文 参考訳(メタデータ) (2024-01-28T06:41:15Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Efficient Multi-Scale Attention Module with Cross-Spatial Learning [4.046170185945849]
効率的なマルチスケールアテンション(EMA)モジュールを提案する。
チャネルごとの情報保持と計算オーバーヘッドの低減に重点を置いている。
我々は画像分類と物体検出タスクについて広範囲にわたるアブレーション研究と実験を行った。
論文 参考訳(メタデータ) (2023-05-23T00:35:47Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Channel-wise Knowledge Distillation for Dense Prediction [73.99057249472735]
本稿では,学生ネットワークと教師ネットワークのチャンネルワイズ機能について提案する。
様々なネットワーク構造を持つ3つのベンチマークにおいて、一貫して優れた性能を実現している。
論文 参考訳(メタデータ) (2020-11-26T12:00:38Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z) - Single Image Super-Resolution via a Holistic Attention Network [87.42409213909269]
本稿では,階層,チャネル,位置間の全体的相互依存性をモデル化するための新しい全体論的注意ネットワーク(HAN)を提案する。
提案したHANは階層的特徴を適応的に強調し,層間相関を考慮した。
実験により、提案HANは、最先端の単一画像超解像アプローチに対して好適に機能することが示された。
論文 参考訳(メタデータ) (2020-08-20T04:13:15Z) - Channel-Level Variable Quantization Network for Deep Image Compression [50.3174629451739]
チャネルレベルの可変量子化ネットワークを提案し、重要なチャネルに対してより多くの畳み込みを動的に割り当て、無視可能なチャネルに対して退避する。
提案手法は優れた性能を実現し,より優れた視覚的再構成を実現する。
論文 参考訳(メタデータ) (2020-07-15T07:20:39Z) - Channel-Attention Dense U-Net for Multichannel Speech Enhancement [21.94418736688929]
我々は、ビームフォーミングを模倣するチャネルアテンション機構をディープアーキテクチャ内に導入する。
我々は,CHiME-3データセットの最先端アプローチに対して,ネットワークの優れた性能を示す。
論文 参考訳(メタデータ) (2020-01-30T19:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。