論文の概要: Enhancing Feature Diversity Boosts Channel-Adaptive Vision Transformers
- arxiv url: http://arxiv.org/abs/2405.16419v2
- Date: Mon, 28 Oct 2024 13:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:17:23.243286
- Title: Enhancing Feature Diversity Boosts Channel-Adaptive Vision Transformers
- Title(参考訳): チャネル適応型視覚変換器の多様性向上
- Authors: Chau Pham, Bryan A. Plummer,
- Abstract要約: マルチチャネルイメージング(MCI)モデルは、テスト時に様々なチャネル構成をサポートする必要がある。
最近の研究は、ヴィジュアルトランスフォーマー(ViT)のようなMCIの伝統的なビジュアルエンコーダを拡張し、チャネル構成を表すエンコードでピクセル情報を補う。
MCI-ViTモデルの学習特徴の多様性を高めることを目的としたDiChaViTを提案する。
- 参考スコア(独自算出の注目度): 18.731717752379232
- License:
- Abstract: Multi-Channel Imaging (MCI) contains an array of challenges for encoding useful feature representations not present in traditional images. For example, images from two different satellites may both contain RGB channels, but the remaining channels can be different for each imaging source. Thus, MCI models must support a variety of channel configurations at test time. Recent work has extended traditional visual encoders for MCI, such as Vision Transformers (ViT), by supplementing pixel information with an encoding representing the channel configuration. However, these methods treat each channel equally, i.e., they do not consider the unique properties of each channel type, which can result in needless and potentially harmful redundancies in the learned features. For example, if RGB channels are always present, the other channels can focus on extracting information that cannot be captured by the RGB channels. To this end, we propose DiChaViT, which aims to enhance the diversity in the learned features of MCI-ViT models. This is achieved through a novel channel sampling strategy that encourages the selection of more distinct channel sets for training. Additionally, we employ regularization and initialization techniques to increase the likelihood that new information is learned from each channel. Many of our improvements are architecture agnostic and can be incorporated into new architectures as they are developed. Experiments on both satellite and cell microscopy datasets, CHAMMI, JUMP-CP, and So2Sat, report DiChaViT yields a 1.5 - 5.0% gain over the state-of-the-art. Our code is publicly available at https://github.com/chaudatascience/diverse_channel_vit.
- Abstract(参考訳): MCI(Multi-Channel Imaging)には、従来の画像には存在しない有用な特徴表現を符号化するための課題が数多く含まれている。
例えば、2つの異なる衛星の画像はどちらもRGBチャネルを含むが、残りのチャンネルは各撮像源ごとに異なることができる。
したがって、MCIモデルはテスト時に様々なチャネル構成をサポートする必要がある。
最近の研究は、ヴィジュアルトランスフォーマー(ViT)のようなMCIの伝統的なビジュアルエンコーダを拡張し、チャネル構成を表すエンコードでピクセル情報を補う。
しかし、これらの手法は各チャネルを等しく扱う、すなわち、各チャネルタイプのユニークな性質を考慮せず、学習した特徴において不要で潜在的に有害な冗長性をもたらす可能性がある。
例えば、RGBチャンネルが常に存在する場合、他のチャンネルはRGBチャンネルで取得できない情報を抽出することに集中することができる。
そこで本研究では,MCI-ViTモデルの学習特徴の多様性向上を目的としたDiChaViTを提案する。
これは、トレーニングのためのより独立したチャネルセットの選択を促進する、新しいチャネルサンプリング戦略によって達成される。
さらに,各チャネルから新たな情報が学習される可能性を高めるため,正規化と初期化技術を採用している。
私たちの改善の多くはアーキテクチャに依存しないもので、開発時に新しいアーキテクチャに組み込むことができます。
衛星とセルの両方の顕微鏡データセット、CHAMMI、JUMP-CP、So2Satの実験では、DiChaViTは最先端よりも1.5-5.0%上昇している。
私たちのコードはhttps://github.com/chaudatascience/diverse_ channel_vitで公開されています。
関連論文リスト
- ChAda-ViT : Channel Adaptive Attention for Joint Representation Learning of Heterogeneous Microscopy Images [2.954116522244175]
本稿では,Channel Adaptive Vision TransformerアーキテクチャであるChAda-ViTを提案する。
IDRCell100kは7つの顕微鏡モダリティを網羅した79の実験を多用したバイオイメージデータセットである。
我々のアーキテクチャは、自己管理的な方法で訓練され、いくつかの生物学的に関連する下流タスクにおいて、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-11-26T10:38:47Z) - Recaptured Raw Screen Image and Video Demoir\'eing via Channel and
Spatial Modulations [16.122531943812465]
生の入力に適した画像とビデオのデモアネットワークを提案する。
色分離された特徴分岐を導入し、チャンネルと空間変調を通して従来の特徴混合分岐と融合する。
実験により,本手法が画像とビデオの復調の両面において,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-31T10:19:28Z) - Channel Vision Transformers: An Image Is Worth 1 x 16 x 16 Words [7.210982964205077]
Vision Transformer (ViT) は現代のコンピュータビジョンにおいて強力なアーキテクチャとして登場した。
しかし、顕微鏡や衛星画像などの特定の撮像分野への応用は、ユニークな課題を呈している。
本稿では、入力チャネル間の推論を強化するViTアーキテクチャの修正を提案する。
論文 参考訳(メタデータ) (2023-09-28T02:20:59Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Channel-wise Knowledge Distillation for Dense Prediction [73.99057249472735]
本稿では,学生ネットワークと教師ネットワークのチャンネルワイズ機能について提案する。
様々なネットワーク構造を持つ3つのベンチマークにおいて、一貫して優れた性能を実現している。
論文 参考訳(メタデータ) (2020-11-26T12:00:38Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Channel-Level Variable Quantization Network for Deep Image Compression [50.3174629451739]
チャネルレベルの可変量子化ネットワークを提案し、重要なチャネルに対してより多くの畳み込みを動的に割り当て、無視可能なチャネルに対して退避する。
提案手法は優れた性能を実現し,より優れた視覚的再構成を実現する。
論文 参考訳(メタデータ) (2020-07-15T07:20:39Z) - Channel Interaction Networks for Fine-Grained Image Categorization [61.095320862647476]
微妙なクラス間差のため、きめ細かい画像分類は困難である。
本稿では,チャネル・インタラクション・ネットワーク(CIN)を提案する。
我々のモデルは、多段階のトレーニングやテストを必要とせずに、エンドツーエンドで効率的にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-03-11T11:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。