論文の概要: LUM-ViT: Learnable Under-sampling Mask Vision Transformer for Bandwidth
Limited Optical Signal Acquisition
- arxiv url: http://arxiv.org/abs/2403.01412v1
- Date: Sun, 3 Mar 2024 06:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:36:26.348112
- Title: LUM-ViT: Learnable Under-sampling Mask Vision Transformer for Bandwidth
Limited Optical Signal Acquisition
- Title(参考訳): LUM-ViT:帯域限定光信号取得用アンダーサンプリングマスクビジョン変換器
- Authors: Lingfeng Liu, Dong Ni, Hangjie Yuan
- Abstract要約: 本稿では, 取得量を削減するために, 事前取得変調を利用した新しいアプローチを提案する。
同様に、LUM-ViTは、事前取得の調整に適した学習可能なアンダーサンプリングマスクを組み込んでいる。
評価の結果,LUM-ViTは画像画像の10%をサンプリングすることで,画像ネット分類タスクにおいて1.8%以内の精度低下を維持できることがわかった。
- 参考スコア(独自算出の注目度): 14.773452863027037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bandwidth constraints during signal acquisition frequently impede real-time
detection applications. Hyperspectral data is a notable example, whose vast
volume compromises real-time hyperspectral detection. To tackle this hurdle, we
introduce a novel approach leveraging pre-acquisition modulation to reduce the
acquisition volume. This modulation process is governed by a deep learning
model, utilizing prior information. Central to our approach is LUM-ViT, a
Vision Transformer variant. Uniquely, LUM-ViT incorporates a learnable
under-sampling mask tailored for pre-acquisition modulation. To further
optimize for optical calculations, we propose a kernel-level weight
binarization technique and a three-stage fine-tuning strategy. Our evaluations
reveal that, by sampling a mere 10% of the original image pixels, LUM-ViT
maintains the accuracy loss within 1.8% on the ImageNet classification task.
The method sustains near-original accuracy when implemented on real-world
optical hardware, demonstrating its practicality. Code will be available at
https://github.com/MaxLLF/LUM-ViT.
- Abstract(参考訳): 信号取得時の帯域制限はリアルタイム検出をしばしば阻害する。
ハイパースペクトルデータ(hyperspectral data)は、リアルタイムのハイパースペクトル検出を損なう膨大な量の例である。
このハードルに取り組むために,我々は,獲得前の変調を利用して獲得量を減らす新しいアプローチを提案する。
この変調プロセスは、事前情報を利用してディープラーニングモデルによって制御される。
私たちのアプローチの中心は、Vision Transformerの亜種であるLUM-ViTです。
同様に、LUM-ViTは事前取得の調整に適した学習可能なアンダーサンプリングマスクを組み込んでいる。
さらに光学計算を最適化するために,カーネルレベルの重み2値化手法と3段階の微調整戦略を提案する。
評価の結果,LUM-ViTは画像画像の10%をサンプリングすることで,画像ネット分類タスクにおいて1.8%以内の精度低下を維持できることがわかった。
この手法は、実世界の光学ハードウェアに実装した場合の原初の精度を維持し、実用性を示す。
コードはhttps://github.com/MaxLLF/LUM-ViT.comから入手できる。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - LF-ViT: Reducing Spatial Redundancy in Vision Transformer for Efficient
Image Recognition [9.727093171296678]
Vision Transformer (ViT) は高解像度画像を扱う際の精度を向上する。
これは空間冗長性の著しい課題に直面し、計算とメモリの要求が増大する。
LF-ViT(Localization and Focus Vision Transformer)について述べる。
計算要求を戦略的に削減し、性能を損なうことなく運用する。
論文 参考訳(メタデータ) (2024-01-08T01:32:49Z) - PRISTA-Net: Deep Iterative Shrinkage Thresholding Network for Coded
Diffraction Patterns Phase Retrieval [6.982256124089]
位相検索は、計算画像および画像処理における非線型逆問題である。
我々は,1次反復しきい値しきい値アルゴリズム(ISTA)に基づく深層展開ネットワークであるPRISTA-Netを開発した。
非線形変換,しきい値,ステップサイズなど,提案するPRISTA-Netフレームワークのパラメータはすべて,設定されるのではなく,エンドツーエンドで学習される。
論文 参考訳(メタデータ) (2023-09-08T07:37:15Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Read Pointer Meters in complex environments based on a Human-like
Alignment and Recognition Algorithm [16.823681016882315]
これらの問題を克服するための人間ライクなアライメントと認識アルゴリズムを提案する。
STM(Spatial Transformed Module)は,画像のフロントビューを自己自律的に取得するために提案される。
VAM(Value Acquisition Module)は、エンドツーエンドのトレーニングフレームワークによって正確なメーター値を推測するために提案される。
論文 参考訳(メタデータ) (2023-02-28T05:37:04Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Mask-guided Vision Transformer (MG-ViT) for Few-Shot Learning [10.29251906347605]
本稿では,視覚変換器(ViT)モデルを用いた効果的かつ効率的な数ショット学習を実現するために,新しいマスク誘導型視覚変換器(MG-ViT)を提案する。
MG-ViTモデルは、一般的な微調整ベースのViTモデルと比較して、性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-20T07:25:33Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Deep Learning Adapted Acceleration for Limited-view Photoacoustic
Computed Tomography [1.8830359888767887]
光音響計算トモグラフィ(PACT)は、PA信号検出のための超音波トランスデューサアレイでターゲットを照らすために、焦点のない大面積の光を使用する。
限定ビュー問題は、幾何学的条件の制限により、PACTの低画質の画像を引き起こす可能性がある。
数学的変動モデルとディープラーニングを組み合わせたモデルベース手法を提案する。
論文 参考訳(メタデータ) (2021-11-08T02:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。