論文の概要: Isolated Channel Vision Transformers: From Single-Channel Pretraining to Multi-Channel Finetuning
- arxiv url: http://arxiv.org/abs/2503.09826v1
- Date: Wed, 12 Mar 2025 20:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:17.567646
- Title: Isolated Channel Vision Transformers: From Single-Channel Pretraining to Multi-Channel Finetuning
- Title(参考訳): 孤立チャネルビジョン変換器:シングルチャネル前処理からマルチチャネルファインタニングへ
- Authors: Wenyi Lian, Joakim Lindblad, Patrick Micke, Nataša Sladoje,
- Abstract要約: 大規模MCIデータセットのための簡易かつ効果的な事前学習フレームワークを提案する。
分離チャネル ViT (IC-ViT) と呼ばれるこの手法は,画像チャネルを個別にパッチし,マルチモーダルなマルチチャネルタスクの事前学習を可能にする。
JUMP-CPとCHAMMI、衛星画像用So2Sat-LCZ42など、様々なタスクとベンチマークの実験により、提案されたIC-ViTはパフォーマンス改善の4-14ポイントを提供することが示された。
- 参考スコア(独自算出の注目度): 3.4170567485926373
- License:
- Abstract: Vision Transformers (ViTs) have achieved remarkable success in standard RGB image processing tasks. However, applying ViTs to multi-channel imaging (MCI) data, e.g., for medical and remote sensing applications, remains a challenge. In particular, MCI data often consist of layers acquired from different modalities. Directly training ViTs on such data can obscure complementary information and impair the performance. In this paper, we introduce a simple yet effective pretraining framework for large-scale MCI datasets. Our method, named Isolated Channel ViT (IC-ViT), patchifies image channels individually and thereby enables pretraining for multimodal multi-channel tasks. We show that this channel-wise patchifying is a key technique for MCI processing. More importantly, one can pretrain the IC-ViT on single channels and finetune it on downstream multi-channel datasets. This pretraining framework captures dependencies between patches as well as channels and produces robust feature representation. Experiments on various tasks and benchmarks, including JUMP-CP and CHAMMI for cell microscopy imaging, and So2Sat-LCZ42 for satellite imaging, show that the proposed IC-ViT delivers 4-14 percentage points of performance improvement over existing channel-adaptive approaches. Further, its efficient training makes it a suitable candidate for large-scale pretraining of foundation models on heterogeneous data.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、標準のRGB画像処理タスクにおいて顕著な成功を収めた。
しかし、医療・遠隔センシングアプリケーションなど、マルチチャネルイメージング(MCI)データにViTを適用することは依然として課題である。
特に、MCIデータは、しばしば異なるモダリティから取得された層から構成される。
このようなデータで直接ViTを訓練することは相補的な情報を曖昧にし、性能を損なう可能性がある。
本稿では,大規模MCIデータセットを対象とした簡易かつ効果的な事前学習フレームワークを提案する。
分離チャネル ViT (IC-ViT) と呼ばれるこの手法は,画像チャネルを個別にパッチし,マルチモーダルなマルチチャネルタスクの事前学習を可能にする。
このチャネルワイズパッチは,MCI処理の鍵となる手法であることを示す。
さらに重要なのは、IC-ViTを単一のチャネルで事前トレーニングし、下流のマルチチャネルデータセットで微調整できることだ。
この事前トレーニングフレームワークは、パッチ間の依存関係とチャネルをキャプチャし、堅牢な機能表現を生成する。
JUMP-CPとCHAMMI、衛星画像用So2Sat-LCZ42など、様々なタスクとベンチマークの実験により、提案されたIC-ViTは、既存のチャネル適応型アプローチよりも4-14パーセントの性能向上を実現していることが示された。
さらに、その効率的なトレーニングは、不均一なデータに基づく基礎モデルの大規模事前学習に適した候補となる。
関連論文リスト
- Scalable Transformer for High Dimensional Multivariate Time Series Forecasting [10.17270031004674]
本研究では,高次元MSSデータ上でのチャネル依存モデルの最適性能の背景について検討する。
本稿では,高次元時系列予測のためのスケーラブル変換器STHDを提案する。
実験により、STHDは3つの高次元データセット(クリミア・シカゴ、ウィキ・ピープル、トラヒック)をかなり改善した。
論文 参考訳(メタデータ) (2024-08-08T06:17:13Z) - Enhancing Feature Diversity Boosts Channel-Adaptive Vision Transformers [18.731717752379232]
マルチチャネルイメージング(MCI)モデルは、テスト時に様々なチャネル構成をサポートする必要がある。
最近の研究は、ヴィジュアルトランスフォーマー(ViT)のようなMCIの伝統的なビジュアルエンコーダを拡張し、チャネル構成を表すエンコードでピクセル情報を補う。
MCI-ViTモデルの学習特徴の多様性を高めることを目的としたDiChaViTを提案する。
論文 参考訳(メタデータ) (2024-05-26T03:41:40Z) - Frequency-Aware Transformer for Learned Image Compression [64.28698450919647]
学習画像圧縮(lic)のためのマルチスケール指向性アナリシスを初めて実現した周波数認識変換器(FAT)ブロックを提案する。
FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。
また、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。
論文 参考訳(メタデータ) (2023-10-25T05:59:25Z) - Channel Vision Transformers: An Image Is Worth 1 x 16 x 16 Words [7.210982964205077]
Vision Transformer (ViT) は現代のコンピュータビジョンにおいて強力なアーキテクチャとして登場した。
しかし、顕微鏡や衛星画像などの特定の撮像分野への応用は、ユニークな課題を呈している。
本稿では、入力チャネル間の推論を強化するViTアーキテクチャの修正を提案する。
論文 参考訳(メタデータ) (2023-09-28T02:20:59Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Multi-view self-supervised learning for multivariate variable-channel
time series [1.094320514634939]
入力チャネルを個別に操作するための1つのエンコーダの学習を提案する。
次に、メッセージパッシングニューラルネットワークを使用して、チャネル間の単一の表現を抽出します。
TS2Vecの損失と組み合わせることで、ほとんどの設定で他のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-13T19:03:06Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Channel-Level Variable Quantization Network for Deep Image Compression [50.3174629451739]
チャネルレベルの可変量子化ネットワークを提案し、重要なチャネルに対してより多くの畳み込みを動的に割り当て、無視可能なチャネルに対して退避する。
提案手法は優れた性能を実現し,より優れた視覚的再構成を実現する。
論文 参考訳(メタデータ) (2020-07-15T07:20:39Z) - Channel Interaction Networks for Fine-Grained Image Categorization [61.095320862647476]
微妙なクラス間差のため、きめ細かい画像分類は困難である。
本稿では,チャネル・インタラクション・ネットワーク(CIN)を提案する。
我々のモデルは、多段階のトレーニングやテストを必要とせずに、エンドツーエンドで効率的にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-03-11T11:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。