論文の概要: Channel Vision Transformers: An Image Is Worth 1 x 16 x 16 Words
- arxiv url: http://arxiv.org/abs/2309.16108v4
- Date: Fri, 19 Apr 2024 02:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 20:16:45.927822
- Title: Channel Vision Transformers: An Image Is Worth 1 x 16 x 16 Words
- Title(参考訳): チャンネル・ビジョン・トランスフォーマー:画像は1×16×16ワード
- Authors: Yujia Bao, Srinivasan Sivanandan, Theofanis Karaletsos,
- Abstract要約: Vision Transformer (ViT) は現代のコンピュータビジョンにおいて強力なアーキテクチャとして登場した。
しかし、顕微鏡や衛星画像などの特定の撮像分野への応用は、ユニークな課題を呈している。
本稿では、入力チャネル間の推論を強化するViTアーキテクチャの修正を提案する。
- 参考スコア(独自算出の注目度): 7.210982964205077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) has emerged as a powerful architecture in the realm of modern computer vision. However, its application in certain imaging fields, such as microscopy and satellite imaging, presents unique challenges. In these domains, images often contain multiple channels, each carrying semantically distinct and independent information. Furthermore, the model must demonstrate robustness to sparsity in input channels, as they may not be densely available during training or testing. In this paper, we propose a modification to the ViT architecture that enhances reasoning across the input channels and introduce Hierarchical Channel Sampling (HCS) as an additional regularization technique to ensure robustness when only partial channels are presented during test time. Our proposed model, ChannelViT, constructs patch tokens independently from each input channel and utilizes a learnable channel embedding that is added to the patch tokens, similar to positional embeddings. We evaluate the performance of ChannelViT on ImageNet, JUMP-CP (microscopy cell imaging), and So2Sat (satellite imaging). Our results show that ChannelViT outperforms ViT on classification tasks and generalizes well, even when a subset of input channels is used during testing. Across our experiments, HCS proves to be a powerful regularizer, independent of the architecture employed, suggesting itself as a straightforward technique for robust ViT training. Lastly, we find that ChannelViT generalizes effectively even when there is limited access to all channels during training, highlighting its potential for multi-channel imaging under real-world conditions with sparse sensors. Our code is available at https://github.com/insitro/ChannelViT.
- Abstract(参考訳): Vision Transformer (ViT) は現代のコンピュータビジョンの領域において強力なアーキテクチャとして登場した。
しかし、顕微鏡や衛星画像などの特定の撮像分野への応用は、ユニークな課題を呈している。
これらの領域では、画像はしばしば複数のチャネルを含み、それぞれが意味的に異なる独立した情報を持っている。
さらに、このモデルは、トレーニングやテスト中に密に利用できない可能性があるため、入力チャネルのスパーシティに対する堅牢性を示す必要がある。
本稿では、入力チャネル間の推論を強化するViTアーキテクチャの修正と、テスト時間中に部分チャネルのみを表示する場合のロバスト性を保証するための追加の正規化手法として階層型チャネルサンプリング(HCS)を導入することを提案する。
提案モデルであるChannelViTは,各入力チャネルから独立してパッチトークンを構築し,各パッチトークンに付加される学習可能なチャネル埋め込みを利用する。
我々は、ImageNet、JUMP-CP(顕微鏡細胞イメージング)、So2Sat(衛星イメージング)におけるChannelViTの性能を評価する。
この結果から,ChannelViTは,テスト中に入力チャネルのサブセットを使用した場合であっても,分類タスクにおいてViTよりも優れ,最適化が良好であることがわかった。
実験全体を通して、HCSは採用されているアーキテクチャとは独立して強力な正則化器であることが証明され、堅牢なViTトレーニングのための簡単なテクニックであることが示唆された。
最後に、ChannelViTは訓練中にすべてのチャンネルへのアクセスが限られている場合でも効果的に一般化し、スパースセンサーを用いた実環境下でのマルチチャネルイメージングの可能性を強調します。
私たちのコードはhttps://github.com/insitro/ChannelViT.comで利用可能です。
関連論文リスト
- Enhancing Feature Diversity Boosts Channel-Adaptive Vision Transformers [18.731717752379232]
マルチチャネルイメージング(MCI)モデルは、テスト時に様々なチャネル構成をサポートする必要がある。
最近の研究は、ヴィジュアルトランスフォーマー(ViT)のようなMCIの伝統的なビジュアルエンコーダを拡張し、チャネル構成を表すエンコードでピクセル情報を補う。
MCI-ViTモデルの学習特徴の多様性を高めることを目的としたDiChaViTを提案する。
論文 参考訳(メタデータ) (2024-05-26T03:41:40Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Patch Is Not All You Need [57.290256181083016]
本稿では,画像の変換を適応的に変換する新しいパターン変換器を提案する。
我々は畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出する。
我々は,CIFAR-10とCIFAR-100で最先端のパフォーマンスを達成し,ImageNet上での競合的な結果を得た。
論文 参考訳(メタデータ) (2023-08-21T13:54:00Z) - WITT: A Wireless Image Transmission Transformer for Semantic
Communications [11.480385893433802]
我々は、Wi-Fi画像トランス(WITT)を実現するための新しいバックボーンとして、視覚変換器(ViT)を再設計する。
WITTは、無線チャネルの効果を考慮して、画像伝送に高度に最適化されている。
我々の実験は、WITTが様々な画像解像度、歪みメトリクス、チャネル条件に対してより良い性能が得られることを検証した。
論文 参考訳(メタデータ) (2022-11-02T07:50:27Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Image Captioning In the Transformer Age [71.06437715212911]
Image Captioning (IC)は、CNN-RNNエンコーダ・デコーダアーキテクチャに様々な技術を統合することで驚くべき発展を遂げた。
本稿では,ICと一般的な自己教師型学習パラダイムの関連性について分析する。
論文 参考訳(メタデータ) (2022-04-15T08:13:39Z) - DeepJSCC-Q: Channel Input Constrained Deep Joint Source-Channel Coding [5.046831208137847]
DeepJSCC-Qは、無線画像伝送のためのエンドツーエンドのジョイントソースチャネル符号化方式である。
チャネル条件が悪くなると、前処理で観察される画質の優雅な劣化が保たれる。
論文 参考訳(メタデータ) (2021-11-25T11:59:17Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Wireless Image Retrieval at the Edge [20.45405359815043]
本研究では、エッジデバイスが画像をキャプチャし、エッジサーバから同様の画像を検索するために使用される無線エッジにおける画像検索問題について検討する。
我々の目標は、無線リンクに対する電力及び帯域幅制約下での検索タスクの精度を最大化することである。
本稿では,デジタル通信とアナログ通信の2つの方法を提案する。
論文 参考訳(メタデータ) (2020-07-21T16:15:40Z) - Channel Interaction Networks for Fine-Grained Image Categorization [61.095320862647476]
微妙なクラス間差のため、きめ細かい画像分類は困難である。
本稿では,チャネル・インタラクション・ネットワーク(CIN)を提案する。
我々のモデルは、多段階のトレーニングやテストを必要とせずに、エンドツーエンドで効率的にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-03-11T11:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。