論文の概要: Hyb-KAN ViT: Hybrid Kolmogorov-Arnold Networks Augmented Vision Transformer
- arxiv url: http://arxiv.org/abs/2505.04740v1
- Date: Wed, 07 May 2025 19:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.647056
- Title: Hyb-KAN ViT: Hybrid Kolmogorov-Arnold Networks Augmented Vision Transformer
- Title(参考訳): Hyb-KAN ViT: Kolmogorov-Arnold Networks Augmented Vision Transformer
- Authors: Sainath Dey, Mitul Goswami, Jashika Sethi, Prasant Kumar Pattnaik,
- Abstract要約: 本研究では、ビジョントランスフォーマー(ViT)におけるマルチアルノルドパーセプトロン(MLP)固有の制限に対処するため、Hybrid Kolmogorov-Arnold Network(KAN)-T(Hyb-KAN ViT)を導入する。
Hyb-KAN ViTはウェーブレットベースのスペクトル分解とスプライン最適化活性化関数を統合する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study addresses the inherent limitations of Multi-Layer Perceptrons (MLPs) in Vision Transformers (ViTs) by introducing Hybrid Kolmogorov-Arnold Network (KAN)-ViT (Hyb-KAN ViT), a novel framework that integrates wavelet-based spectral decomposition and spline-optimized activation functions, prior work has failed to focus on the prebuilt modularity of the ViT architecture and integration of edge detection capabilities of Wavelet functions. We propose two key modules: Efficient-KAN (Eff-KAN), which replaces MLP layers with spline functions and Wavelet-KAN (Wav-KAN), leveraging orthogonal wavelet transforms for multi-resolution feature extraction. These modules are systematically integrated in ViT encoder layers and classification heads to enhance spatial-frequency modeling while mitigating computational bottlenecks. Experiments on ImageNet-1K (Image Recognition), COCO (Object Detection and Instance Segmentation), and ADE20K (Semantic Segmentation) demonstrate state-of-the-art performance with Hyb-KAN ViT. Ablation studies validate the efficacy of wavelet-driven spectral priors in segmentation and spline-based efficiency in detection tasks. The framework establishes a new paradigm for balancing parameter efficiency and multi-scale representation in vision architectures.
- Abstract(参考訳): 本研究では、ウェーブレットに基づくスペクトル分解とスプライン最適化活性化関数を統合した新しいフレームワークであるHybrid Kolmogorov-Arnold Network (KAN)-ViT (Hyb-KAN ViT)を導入することで、ビジョントランスフォーマー(ViT)におけるMLP(Multi-Layer Perceptrons)の固有の制限に対処する。
本稿では,マルチ解像度特徴抽出に直交ウェーブレット変換を活用することで,MLP層をスプライン関数に置き換えるEff-KAN(Eff-KAN)とWavelet-KAN(Wav-KAN)の2つの重要なモジュールを提案する。
これらのモジュールは、計算ボトルネックを緩和しながら空間周波数モデリングを強化するために、ViTエンコーダ層と分類ヘッドに体系的に統合される。
ImageNet-1K(画像認識)、COCO(オブジェクト検出とインスタンスセグメンテーション)、ADE20K(セマンティックセグメンテーション)の実験は、Hyb-KAN ViTによる最先端の性能を示す。
アブレーション研究は、検出タスクにおけるセグメンテーションおよびスプラインベース効率におけるウェーブレット駆動スペクトル先行効果を検証した。
このフレームワークは、視覚アーキテクチャにおけるパラメータ効率とマルチスケール表現のバランスをとるための新しいパラダイムを確立する。
関連論文リスト
- BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Spatial-Spectral Diffusion Contrastive Representation Network for Hyperspectral Image Classification [8.600534616819333]
本稿では,空間スペクトル拡散コントラスト表現ネットワーク(DiffCRN)を提案する。
DiffCRNは、高スペクトル画像分類のための拡散確率モデル(DDPM)とコントラスト学習(CL)の組み合わせに基づく。
広く使われている4つのHSIデータセットを用いて実験を行い、提案したDiffCRNの性能改善を実証した。
論文 参考訳(メタデータ) (2025-02-27T02:34:23Z) - FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Unveiling the Power of Wavelets: A Wavelet-based Kolmogorov-Arnold Network for Hyperspectral Image Classification [3.009351592961681]
本稿では,ウェーブレットをベースとしたKolmogorov-Arnold Network(wav-kan)アーキテクチャを用いて,複雑な依存関係の効率的なモデリングを行う。
ウェーブレットベースのアクティベーションにより、Wav-KANはマルチスケールの空間およびスペクトルパターンを効果的にキャプチャできる。
論文 参考訳(メタデータ) (2024-06-12T04:52:40Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - Transformer variational wave functions for frustrated quantum spin
systems [0.0]
本稿では,ニューラルネットワーク状態の新たなクラスを定義するために,複雑なパラメータを持つViTアーキテクチャの適応を提案する。
ViT波動関数の成功は、局所演算と大域演算の混合に依存する。
論文 参考訳(メタデータ) (2022-11-10T11:56:44Z) - RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional
Network for Retinal OCT Fluid Segmentation [3.57686754209902]
OCTガイド下治療には網膜液の定量化が必要である。
RetiFluidNetと呼ばれる新しい畳み込みニューラルアーキテクチャは、多クラス網膜流体セグメンテーションのために提案されている。
モデルは、テクスチャ、コンテキスト、エッジといった特徴の階層的な表現学習の恩恵を受ける。
論文 参考訳(メタデータ) (2022-09-26T07:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。