論文の概要: DC-ViT: Modulating Spatial and Channel Interactions for Multi-Channel Images
- arxiv url: http://arxiv.org/abs/2603.14281v1
- Date: Sun, 15 Mar 2026 08:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.719274
- Title: DC-ViT: Modulating Spatial and Channel Interactions for Multi-Channel Images
- Title(参考訳): DC-ViT:マルチチャネル画像のための空間的・チャネル的相互作用の制御
- Authors: Umar Marikkar, Syed Sameed Husain, Muhammad Awais, Sara Atito,
- Abstract要約: マルチチャネルイメージング(MCI)のトレーニングと評価は、異種チャネル構成のため、依然として困難である。
最近のMulti-Channel Vision Transformers (MC-ViTs)は、フレキシブルなチャネル入力を可能にすることでこの問題に対処している。
Decoupled Self-Attention (DSA)を用いて情報共有を明示的に制御するDecoupled Vision Transformer (DC-ViT)を提案する。
- 参考スコア(独自算出の注目度): 9.507520646516719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training and evaluation in multi-channel imaging (MCI) remains challenging due to heterogeneous channel configurations arising from varying staining protocols, sensor types, and acquisition settings. This heterogeneity limits the applicability of fixed-channel encoders commonly used in general computer vision. Recent Multi-Channel Vision Transformers (MC-ViTs) address this by enabling flexible channel inputs, typically by jointly encoding patch tokens from all channels within a unified attention space. However, unrestricted token interactions across channels can lead to feature dilution, reducing the ability to preserve channel-specific semantics that are critical in MCI data. To address this, we propose Decoupled Vision Transformer (DC-ViT), which explicitly regulates information sharing using Decoupled Self-Attention (DSA), which decomposes token updates into two complementary pathways: spatial updates that model intra-channel structure, and channel-wise updates that adaptively integrate cross-channel information. This decoupling mitigates informational collapse while allowing selective inter-channel interaction. To further exploit these enhanced channel-specific representations, we introduce Decoupled Aggregation (DAG), which allows the model to learn task-specific channel importances. Extensive experiments across three MCI benchmarks demonstrate consistent improvements over existing MC-ViT approaches.
- Abstract(参考訳): 多チャンネルイメージング(MCI)のトレーニングと評価は、さまざまな染色プロトコル、センサタイプ、取得設定から生じる異種チャネル構成のため、依然として困難である。
この不均一性は、一般的なコンピュータビジョンで一般的に使用される固定チャネルエンコーダの適用性を制限している。
最近のMulti-Channel Vision Transformers (MC-ViTs)は、フレキシブルなチャネル入力を可能にすることでこの問題に対処している。
しかし、チャネル間の制限のないトークンの相互作用は、特徴の希釈を招き、MCIデータに不可欠なチャネル固有のセマンティクスを保存する能力を低下させる。
そこで本稿では,Decoupled Self-Attention (DSA) を用いて情報共有を明示的に規制するDecoupled Vision Transformer (DC-ViT) を提案する。
この分離は、選択的チャネル間相互作用を可能にしながら、情報の崩壊を緩和する。
これらの強化されたチャネル固有表現をさらに活用するために、モデルがタスク固有チャネルの重要度を学習できるようにするDecoupled Aggregation (DAG)を導入する。
3つのMCIベンチマークによる大規模な実験は、既存のMC-ViTアプローチよりも一貫した改善を示している。
関連論文リスト
- Context Video Semantic Transmission with Variable Length and Rate Coding over MIMO Channels [49.624608869195065]
無線ビデオ伝送のためのコンテキストビデオセマンティックトランスミッション(CVST)フレームワークを提案する。
我々は、特徴群と多重入力多重出力(MIMO)サブチャネルの関係を明確に定式化するために、コンテキストチャネル相関マップを学習する。
近年の無線ビデオ・セマンティック・コミュニケーション・アプローチにおいて,標準化された分離符号化方式に対して性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-12-23T10:48:43Z) - ChA-MAEViT: Unifying Channel-Aware Masked Autoencoders and Multi-Channel Vision Transformers for Improved Cross-Channel Learning [27.124745103676734]
ChA-MAEViTは、マルチチャネルイメージングチャネル間の特徴学習を強化するMAEベースの手法である。
我々はChA-MAEViTが最先端のMCI-ViTを3.0-21.5%上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-25T03:45:59Z) - Isolated Channel Vision Transformers: From Single-Channel Pretraining to Multi-Channel Finetuning [4.376574371216863]
大規模MCIデータセットのための簡易かつ効果的な事前学習フレームワークを提案する。
分離チャネル ViT (IC-ViT) と呼ばれるこの手法は,画像チャネルを個別にパッチし,マルチモーダルなマルチチャネルタスクの事前学習を可能にする。
JUMP-CPとCHAMMI、衛星画像用So2Sat-LCZ42など、様々なタスクとベンチマークの実験により、提案されたIC-ViTはパフォーマンス改善の4-14ポイントを提供することが示された。
論文 参考訳(メタデータ) (2025-03-12T20:45:02Z) - SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small Target Detection [46.049401912285134]
赤外線小ターゲット検出(IRSTD)は近年,U字型ニューラルモデルから大きな恩恵を受けている。
既存のテクニックは、ターゲットが背景と高い類似性を持つ場合に苦労する。
本稿では,空間チャネルクロストランスネットワーク(SCTransNet)を提案する。
論文 参考訳(メタデータ) (2024-01-28T06:41:15Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Channel Interaction Networks for Fine-Grained Image Categorization [61.095320862647476]
微妙なクラス間差のため、きめ細かい画像分類は困難である。
本稿では,チャネル・インタラクション・ネットワーク(CIN)を提案する。
我々のモデルは、多段階のトレーニングやテストを必要とせずに、エンドツーエンドで効率的にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-03-11T11:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。