論文の概要: DisentangleFormer: Spatial-Channel Decoupling for Multi-Channel Vision
- arxiv url: http://arxiv.org/abs/2512.04314v1
- Date: Wed, 03 Dec 2025 23:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.918866
- Title: DisentangleFormer: Spatial-Channel Decoupling for Multi-Channel Vision
- Title(参考訳): DisentangleFormer:マルチチャネルビジョンのための空間チャネルデカップリング
- Authors: Jiashu Liao, Pietro Liò, Marc de Kamps, Duygu Sarikaya,
- Abstract要約: 視覚変換器は基本的な限界に直面し、標準的な自己認識は空間次元とチャネル次元を共同で処理する。
本研究では,空間チャネルの分離を原理として,堅牢な多チャンネル視覚表現を実現するアーキテクチャであるDisentangleFormerを提案する。
パラレル・ディスタングルメント(Parallel Disentanglement): 空間的およびスペクトル的次元にわたる非相関的な特徴学習を可能にする、空間的およびスペクトル的なストリームを独立に処理する、(2) Squeezed Token Enhancer: 空間的およびチャネル的ストリームを動的に融合する適応キャリブレーションモジュール、(3) マルチスケールFFN: グローバルな注目とマルチスケールローカルコンテキストを補完する、3つのコアコンポーネントを統合した。
- 参考スコア(独自算出の注目度): 10.378378296066305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers face a fundamental limitation: standard self-attention jointly processes spatial and channel dimensions, leading to entangled representations that prevent independent modeling of structural and semantic dependencies. This problem is especially pronounced in hyperspectral imaging, from satellite hyperspectral remote sensing to infrared pathology imaging, where channels capture distinct biophysical or biochemical cues. We propose DisentangleFormer, an architecture that achieves robust multi-channel vision representation through principled spatial-channel decoupling. Motivated by information-theoretic principles of decorrelated representation learning, our parallel design enables independent modeling of structural and semantic cues while minimizing redundancy between spatial and channel streams. Our design integrates three core components: (1) Parallel Disentanglement: Independently processes spatial-token and channel-token streams, enabling decorrelated feature learning across spatial and spectral dimensions, (2) Squeezed Token Enhancer: An adaptive calibration module that dynamically fuses spatial and channel streams, and (3) Multi-Scale FFN: complementing global attention with multi-scale local context to capture fine-grained structural and semantic dependencies. Extensive experiments on hyperspectral benchmarks demonstrate that DisentangleFormer achieves state-of-the-art performance, consistently outperforming existing models on Indian Pine, Pavia University, and Houston, the large-scale BigEarthNet remote sensing dataset, as well as an infrared pathology dataset. Moreover, it retains competitive accuracy on ImageNet while reducing computational cost by 17.8% in FLOPs. The code will be made publicly available upon acceptance.
- Abstract(参考訳): 標準的な自己認識は空間次元とチャネル次元を共同で処理し、構造的および意味的依存関係の独立なモデリングを妨げる絡み合った表現につながる。
この問題は、衛星高スペクトルリモートセンシングから赤外線画像まで、特にハイパースペクトルイメージングにおいて顕著であり、そこではチャネルが異なる生物学的または生化学的手がかりを捉えている。
本研究では,空間チャネルの分離を原理として,堅牢な多チャンネル視覚表現を実現するアーキテクチャであるDisentangleFormerを提案する。
この並列設計により,空間ストリームとチャネルストリームの冗長性を最小化しつつ,構造的および意味的キューの独立なモデリングが可能となる。
パラレル・ディスタングルメント(Parallel Disentanglement): 空間的およびスペクトル的次元にわたる非相関的な特徴学習を可能にする独立処理,(2) Squeezed Token Enhancer: 空間的およびチャネル的ストリームを動的に融合する適応キャリブレーションモジュール,(3) マルチスケールFFN: マルチスケールな局所的コンテキストを補完し,微細な構造的およびセマンティックな依存関係を捉える。
ハイパースペクトルベンチマークに関する大規模な実験は、DisentangleFormerが最先端のパフォーマンスを達成し、インドパイン、パヴィア大学、ヒューストンの既存のモデル、大規模なBigEarthNetリモートセンシングデータセット、および赤外線病理データセットを一貫して上回っていることを示している。
さらに、FLOPの計算コストを17.8%削減しながら、ImageNet上での競合精度を維持している。
コードは受理時に公開されます。
関連論文リスト
- Controllable diffusion-based generation for multi-channel biological data [66.44042377817074]
本研究では, 構造的および空間的生物学的データに対する制御可能生成のための統合拡散フレームワークを提案する。
空間的および非空間的予測タスクにまたがって,IMCにおけるタンパク質のインパルス化や単一セルデータセットにおける遺伝子対タンパク質の予測など,最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-06-24T00:56:21Z) - Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。
その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。
トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文 参考訳(メタデータ) (2025-04-23T06:44:46Z) - Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data [14.104497777255137]
本稿では,3つのイノベーションを取り入れた高効率空間スペクトル変換器について紹介する。
位置マスキングとチャネルマスキングを統合したHyperspectral Masked Autoencoderフレームワークを用いたLESS ViTの事前訓練を行った。
実験により, 提案手法は, 最先端のマルチモーダル地空間基盤モデルと競合する性能を示す。
論文 参考訳(メタデータ) (2025-03-17T05:42:19Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Cross-Scope Spatial-Spectral Information Aggregation for Hyperspectral
Image Super-Resolution [47.12985199570964]
超高分解能超高分解能画像の長距離空間およびスペクトル類似性を調べるために,新しいクロススコープ空間スペクトル変換器(CST)を提案する。
具体的には,長距離空間スペクトル特性を包括的にモデル化するために,空間次元とスペクトル次元のクロスアテンション機構を考案する。
3つの超スペクトルデータセットに対する実験により、提案したCSTは他の最先端手法よりも定量的にも視覚的にも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T03:38:56Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - Multi-Attention-Network for Semantic Segmentation of Fine Resolution
Remote Sensing Images [10.835342317692884]
リモートセンシング画像におけるセマンティックセグメンテーションの精度は、ディープ畳み込みニューラルネットワークによって著しく向上した。
本稿では,これらの問題に対処するマルチアテンション・ネットワーク(MANet)を提案する。
線形複雑性を伴うカーネル注意の新たなアテンション機構が提案され,注目される計算負荷の低減が図られた。
論文 参考訳(メタデータ) (2020-09-03T09:08:02Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。