Fugu-MT 論文翻訳(概要): Frequency-Adaptive Discrete Cosine-ViT-ResNet Architecture for Sparse-Data Vision

論文の概要: Frequency-Adaptive Discrete Cosine-ViT-ResNet Architecture for Sparse-Data Vision

arxiv url: http://arxiv.org/abs/2505.22701v1
Date: Wed, 28 May 2025 17:39:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.448532
Title: Frequency-Adaptive Discrete Cosine-ViT-ResNet Architecture for Sparse-Data Vision
Title（参考訳）: スパースデータビジョンのための周波数適応離散コサイン-ViT-ResNetアーキテクチャ
Authors: Ziyue Kang, Weichuan Zhang,
Abstract要約: 最適な低域・中域・高域境界を学習する適応周波数領域選択機構を提案する。自作の50クラスの野生生物データセットでは、このアプローチは従来のCNNや固定バンドDCTパイプラインよりも優れています。
参考スコア（独自算出の注目度）: 7.0134322436635275
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A major challenge in rare animal image classification is the scarcity of data, as many species usually have only a small number of labeled samples. To address this challenge, we designed a hybrid deep-learning framework comprising a novel adaptive DCT preprocessing module, ViT-B16 and ResNet50 backbones, and a Bayesian linear classification head. To our knowledge, we are the first to introduce an adaptive frequency-domain selection mechanism that learns optimal low-, mid-, and high-frequency boundaries suited to the subsequent backbones. Our network first captures image frequency-domain cues via this adaptive DCT partitioning. The adaptively filtered frequency features are then fed into ViT-B16 to model global contextual relationships, while ResNet50 concurrently extracts local, multi-scale spatial representations from the original image. A cross-level fusion strategy seamlessly integrates these frequency- and spatial-domain embeddings, and the fused features are passed through a Bayesian linear classifier to output the final category predictions. On our self-built 50-class wildlife dataset, this approach outperforms conventional CNN and fixed-band DCT pipelines, achieving state-of-the-art accuracy under extreme sample scarcity.
Abstract（参考訳）: 希少動物の画像分類における大きな課題はデータの不足である。そこで我々は,新しい適応DCT前処理モジュール,ViT-B16とResNet50のバックボーン,ベイズ線形分類ヘッドを備えたハイブリッドディープラーニングフレームワークを設計した。我々の知る限り、我々は、後続のバックボーンに適した最適な低域・中域・高域境界を学習する適応周波数領域選択機構を最初に導入した。我々のネットワークはまず、この適応DCTパーティショニングにより、画像周波数領域のキューをキャプチャする。適応的にフィルタリングされた周波数特徴をViT-B16に入力してグローバルなコンテキスト関係をモデル化し、ResNet50は元の画像から局所的なマルチスケール空間表現を同時に抽出する。クロスレベル融合戦略はこれらの周波数領域と空間領域の埋め込みをシームレスに統合し、融合した特徴をベイズ線形分類器に渡して最終カテゴリー予測を出力する。自作の50クラスの野生生物データセットでは、このアプローチは従来のCNNや固定バンドDCTパイプラインよりも優れており、極端なサンプル不足下で最先端の精度を実現しています。

関連論文リスト

Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis [97.37770785712475]
オブジェクト検出のための世代ベースデバイアスフレームワークを提案する。提案手法は,未表現オブジェクト群の性能ギャップを著しく狭める。
論文参考訳（メタデータ） (2025-10-21T02:19:12Z)
SDTN and TRN: Adaptive Spectral-Spatial Feature Extraction for Hyperspectral Image Classification [1.2871580250533408]
ハイパースペクトル画像分類は、精密農業において重要な役割を担い、作物の健康モニタリング、病気の検出、土壌分析に関する正確な洞察を提供する。従来の手法は高次元データ、スペクトル空間の冗長性、ラベル付きサンプルの不足に悩まされ、しばしば準最適性能に繋がる。これらの課題に対処するために,テンソル分解と正規化機構を組み合わせた自己適応正規化ネットワーク(SDTN)を提案し,テンソルランクを動的に調整する。このアプローチは、高い分類精度を維持するだけでなく、計算の複雑さを大幅に減らし、リソース制約のある環境でのリアルタイムデプロイメントに非常に適している。
論文参考訳（メタデータ） (2025-07-13T04:53:33Z)
TFOC-Net: A Short-time Fourier Transform-based Deep Learning Approach for Enhancing Cross-Subject Motor Imagery Classification [0.47498241053872914]
脳-コンピュータ (BCI) におけるクロスオブジェクト運動画像 (CS-MI) の分類は、脳波 (EEG) パターンが個体によって異なるため難しい課題である。この可変性はしばしば、対象特化モデルと比較して分類精度が低下する。我々は、最適化された前処理とディープラーニング技術により、オブジェクト間MI分類性能を大幅に向上する新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-07-03T10:17:39Z)
ViTNF: Leveraging Neural Fields to Boost Vision Transformers in Generalized Category Discovery [1.1970409518725493]
一般カテゴリー発見(GCD)は、オープンワールド認識において一般的な課題である。事前トレーニング、メタトレーニング、微調整を活用することで、ViTは優れた数ショット学習機能を実現する。本稿では,頭部をニューラルネットワークに置き換えた新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-06-03T02:06:01Z)
Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-05-25T12:23:10Z)
FreqU-FNet: Frequency-Aware U-Net for Imbalanced Medical Image Segmentation [0.0]
FreqU-FNetは周波数領域で動作する新しいU字型セグメンテーションアーキテクチャである。我々のフレームワークは、低パス畳み込みとDubechiesウェーブレットに基づくダウンサンプリングを利用する周波数を組み込んでいる。複数の医療セグメンテーションベンチマークの実験では、FreqU-FNetはCNNとTransformerのベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2025-05-23T06:51:24Z)
Spatial Annealing for Efficient Few-shot Neural Rendering [73.49548565633123]
我々はtextbfSpatial textbf Annealing regularized textbfNeRF (textbfSANeRF) という,正確で効率的な数発のニューラルレンダリング手法を導入する。単に1行のコードを追加することで、SANeRFは、現在の数ショットのニューラルレンダリング方法と比較して、より優れたレンダリング品質とはるかに高速な再構築速度を提供する。
論文参考訳（メタデータ） (2024-06-12T02:48:52Z)
DeblurDiNAT: A Compact Model with Exceptional Generalization and Visual Fidelity on Unseen Domains [1.5124439914522694]
DeDiNATはDilated Neighborhood Attentionに基づくデブロアリングトランスフォーマーである。チャンネル横断学習者は、隣接するチャンネル間の短距離関係を理解するためにトランスフォーマーブロックを支援する。最先端モデルと比較して、コンパクトなDeDiNATはより優れた一般化能力を示し、知覚的メトリクスにおいて顕著な性能を達成する。
論文参考訳（メタデータ） (2024-03-19T21:31:31Z)
Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文参考訳（メタデータ） (2023-10-22T02:27:02Z)
Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文参考訳（メタデータ） (2023-08-17T11:30:46Z)
CFDP: Common Frequency Domain Pruning [0.3021678014343889]
本稿では,周波数領域を経由したモデルプルーニングのための新しいエンドツーエンドパイプラインを提案する。我々はCIFAR-10で、GoogLeNetが95.25%、すなわちオリジナルのモデルから+0.2%の精度で達成した。特筆すべきパフォーマンスに加えて、CFDPによって生成されたモデルは、様々な構成に対して堅牢性を示す。
論文参考訳（メタデータ） (2023-06-07T04:49:26Z)
Recurrent Spectral Network (RSN): shaping the basin of attraction of a discrete map to reach automated classification [4.724825031148412]
自動分類のための新しい戦略が導入された。これは、完全に訓練された動的システムを利用して、アイテムを異なる引き付け者に向けて操る。非線型項はトランジェントに作用し、初期条件として供給されたデータを離散力学系に切り離すことができる。我々の新しい分類手法であるRecurrent Spectral Network (RSN) は、画像処理訓練のための標準データセットと同様に、図形的な目的のために作成された単純なテストベッドモデルに挑戦することに成功した。
論文参考訳（メタデータ） (2022-02-09T14:59:06Z)
Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2020-06-25T07:36:47Z)
Transferring and Regularizing Prediction for Semantic Segmentation [115.88957139226966]
本稿では,セマンティックセグメンテーションの本質的特性を利用して,モデル伝達におけるそのような問題を緩和する。本稿では,モデル転送を教師なし方式で正規化するための制約として固有特性を課す予測伝達の正規化器(RPT)を提案する。 GTA5とSynTHIA(synthetic data)で訓練されたモデルの都市景観データセット(アーバンストリートシーン)への転送に関するRTPの提案を検証するため、大規模な実験を行った。
論文参考訳（メタデータ） (2020-06-11T16:19:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。