論文の概要: Frequency-Adaptive Discrete Cosine-ViT-ResNet Architecture for Sparse-Data Vision
- arxiv url: http://arxiv.org/abs/2505.22701v1
- Date: Wed, 28 May 2025 17:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.448532
- Title: Frequency-Adaptive Discrete Cosine-ViT-ResNet Architecture for Sparse-Data Vision
- Title(参考訳): スパースデータビジョンのための周波数適応離散コサイン-ViT-ResNetアーキテクチャ
- Authors: Ziyue Kang, Weichuan Zhang,
- Abstract要約: 最適な低域・中域・高域境界を学習する適応周波数領域選択機構を提案する。
自作の50クラスの野生生物データセットでは、このアプローチは従来のCNNや固定バンドDCTパイプラインよりも優れています。
- 参考スコア(独自算出の注目度): 7.0134322436635275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in rare animal image classification is the scarcity of data, as many species usually have only a small number of labeled samples. To address this challenge, we designed a hybrid deep-learning framework comprising a novel adaptive DCT preprocessing module, ViT-B16 and ResNet50 backbones, and a Bayesian linear classification head. To our knowledge, we are the first to introduce an adaptive frequency-domain selection mechanism that learns optimal low-, mid-, and high-frequency boundaries suited to the subsequent backbones. Our network first captures image frequency-domain cues via this adaptive DCT partitioning. The adaptively filtered frequency features are then fed into ViT-B16 to model global contextual relationships, while ResNet50 concurrently extracts local, multi-scale spatial representations from the original image. A cross-level fusion strategy seamlessly integrates these frequency- and spatial-domain embeddings, and the fused features are passed through a Bayesian linear classifier to output the final category predictions. On our self-built 50-class wildlife dataset, this approach outperforms conventional CNN and fixed-band DCT pipelines, achieving state-of-the-art accuracy under extreme sample scarcity.
- Abstract(参考訳): 希少動物の画像分類における大きな課題はデータの不足である。
そこで我々は,新しい適応DCT前処理モジュール,ViT-B16とResNet50のバックボーン,ベイズ線形分類ヘッドを備えたハイブリッドディープラーニングフレームワークを設計した。
我々の知る限り、我々は、後続のバックボーンに適した最適な低域・中域・高域境界を学習する適応周波数領域選択機構を最初に導入した。
我々のネットワークはまず、この適応DCTパーティショニングにより、画像周波数領域のキューをキャプチャする。
適応的にフィルタリングされた周波数特徴をViT-B16に入力してグローバルなコンテキスト関係をモデル化し、ResNet50は元の画像から局所的なマルチスケール空間表現を同時に抽出する。
クロスレベル融合戦略はこれらの周波数領域と空間領域の埋め込みをシームレスに統合し、融合した特徴をベイズ線形分類器に渡して最終カテゴリー予測を出力する。
自作の50クラスの野生生物データセットでは、このアプローチは従来のCNNや固定バンドDCTパイプラインよりも優れており、極端なサンプル不足下で最先端の精度を実現しています。
関連論文リスト
- Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - FreqU-FNet: Frequency-Aware U-Net for Imbalanced Medical Image Segmentation [0.0]
FreqU-FNetは周波数領域で動作する新しいU字型セグメンテーションアーキテクチャである。
我々のフレームワークは、低パス畳み込みとDubechiesウェーブレットに基づくダウンサンプリングを利用する周波数を組み込んでいる。
複数の医療セグメンテーションベンチマークの実験では、FreqU-FNetはCNNとTransformerのベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-23T06:51:24Z) - Spatial Annealing for Efficient Few-shot Neural Rendering [73.49548565633123]
我々はtextbfSpatial textbf Annealing regularized textbfNeRF (textbfSANeRF) という,正確で効率的な数発のニューラルレンダリング手法を導入する。
単に1行のコードを追加することで、SANeRFは、現在の数ショットのニューラルレンダリング方法と比較して、より優れたレンダリング品質とはるかに高速な再構築速度を提供する。
論文 参考訳(メタデータ) (2024-06-12T02:48:52Z) - DeblurDiNAT: A Compact Model with Exceptional Generalization and Visual Fidelity on Unseen Domains [1.5124439914522694]
DeDiNATはDilated Neighborhood Attentionに基づくデブロアリングトランスフォーマーである。
チャンネル横断学習者は、隣接するチャンネル間の短距離関係を理解するためにトランスフォーマーブロックを支援する。
最先端モデルと比較して、コンパクトなDeDiNATはより優れた一般化能力を示し、知覚的メトリクスにおいて顕著な性能を達成する。
論文 参考訳(メタデータ) (2024-03-19T21:31:31Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - CFDP: Common Frequency Domain Pruning [0.3021678014343889]
本稿では,周波数領域を経由したモデルプルーニングのための新しいエンドツーエンドパイプラインを提案する。
我々はCIFAR-10で、GoogLeNetが95.25%、すなわちオリジナルのモデルから+0.2%の精度で達成した。
特筆すべきパフォーマンスに加えて、CFDPによって生成されたモデルは、様々な構成に対して堅牢性を示す。
論文 参考訳(メタデータ) (2023-06-07T04:49:26Z) - Recurrent Spectral Network (RSN): shaping the basin of attraction of a
discrete map to reach automated classification [4.724825031148412]
自動分類のための新しい戦略が導入された。これは、完全に訓練された動的システムを利用して、アイテムを異なる引き付け者に向けて操る。
非線型項はトランジェントに作用し、初期条件として供給されたデータを離散力学系に切り離すことができる。
我々の新しい分類手法であるRecurrent Spectral Network (RSN) は、画像処理訓練のための標準データセットと同様に、図形的な目的のために作成された単純なテストベッドモデルに挑戦することに成功した。
論文 参考訳(メタデータ) (2022-02-09T14:59:06Z) - Transferring and Regularizing Prediction for Semantic Segmentation [115.88957139226966]
本稿では,セマンティックセグメンテーションの本質的特性を利用して,モデル伝達におけるそのような問題を緩和する。
本稿では,モデル転送を教師なし方式で正規化するための制約として固有特性を課す予測伝達の正規化器(RPT)を提案する。
GTA5とSynTHIA(synthetic data)で訓練されたモデルの都市景観データセット(アーバンストリートシーン)への転送に関するRTPの提案を検証するため、大規模な実験を行った。
論文 参考訳(メタデータ) (2020-06-11T16:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。