論文の概要: Hyb-KAN ViT: Hybrid Kolmogorov-Arnold Networks Augmented Vision Transformer
- arxiv url: http://arxiv.org/abs/2505.04740v1
- Date: Wed, 07 May 2025 19:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.647056
- Title: Hyb-KAN ViT: Hybrid Kolmogorov-Arnold Networks Augmented Vision Transformer
- Title(参考訳): Hyb-KAN ViT: Kolmogorov-Arnold Networks Augmented Vision Transformer
- Authors: Sainath Dey, Mitul Goswami, Jashika Sethi, Prasant Kumar Pattnaik,
- Abstract要約: 本研究では、ビジョントランスフォーマー(ViT)におけるマルチアルノルドパーセプトロン(MLP)固有の制限に対処するため、Hybrid Kolmogorov-Arnold Network(KAN)-T(Hyb-KAN ViT)を導入する。
Hyb-KAN ViTはウェーブレットベースのスペクトル分解とスプライン最適化活性化関数を統合する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study addresses the inherent limitations of Multi-Layer Perceptrons (MLPs) in Vision Transformers (ViTs) by introducing Hybrid Kolmogorov-Arnold Network (KAN)-ViT (Hyb-KAN ViT), a novel framework that integrates wavelet-based spectral decomposition and spline-optimized activation functions, prior work has failed to focus on the prebuilt modularity of the ViT architecture and integration of edge detection capabilities of Wavelet functions. We propose two key modules: Efficient-KAN (Eff-KAN), which replaces MLP layers with spline functions and Wavelet-KAN (Wav-KAN), leveraging orthogonal wavelet transforms for multi-resolution feature extraction. These modules are systematically integrated in ViT encoder layers and classification heads to enhance spatial-frequency modeling while mitigating computational bottlenecks. Experiments on ImageNet-1K (Image Recognition), COCO (Object Detection and Instance Segmentation), and ADE20K (Semantic Segmentation) demonstrate state-of-the-art performance with Hyb-KAN ViT. Ablation studies validate the efficacy of wavelet-driven spectral priors in segmentation and spline-based efficiency in detection tasks. The framework establishes a new paradigm for balancing parameter efficiency and multi-scale representation in vision architectures.
- Abstract(参考訳): 本研究では、ウェーブレットに基づくスペクトル分解とスプライン最適化活性化関数を統合した新しいフレームワークであるHybrid Kolmogorov-Arnold Network (KAN)-ViT (Hyb-KAN ViT)を導入することで、ビジョントランスフォーマー(ViT)におけるMLP(Multi-Layer Perceptrons)の固有の制限に対処する。
本稿では,マルチ解像度特徴抽出に直交ウェーブレット変換を活用することで,MLP層をスプライン関数に置き換えるEff-KAN(Eff-KAN)とWavelet-KAN(Wav-KAN)の2つの重要なモジュールを提案する。
これらのモジュールは、計算ボトルネックを緩和しながら空間周波数モデリングを強化するために、ViTエンコーダ層と分類ヘッドに体系的に統合される。
ImageNet-1K(画像認識)、COCO(オブジェクト検出とインスタンスセグメンテーション)、ADE20K(セマンティックセグメンテーション)の実験は、Hyb-KAN ViTによる最先端の性能を示す。
アブレーション研究は、検出タスクにおけるセグメンテーションおよびスプラインベース効率におけるウェーブレット駆動スペクトル先行効果を検証した。
このフレームワークは、視覚アーキテクチャにおけるパラメータ効率とマルチスケール表現のバランスをとるための新しいパラダイムを確立する。
関連論文リスト
- SIEFormer: Spectral-Interpretable and -Enhanced Transformer for Generalized Category Discovery [14.288193104482986]
SIEFormerは2つのメインブランチから構成されており、それぞれがViTの暗黙的および明示的なスペクトルの観点に対応する。
暗黙の枝は、トークンの局所構造相関をモデル化するために異なるタイプのグラフラプラシアンを使うことを実現する。
一方、明示的なブランチでは、トークン間のグローバル依存関係を学習するManeuverable Filtering Layer(MFL)が導入されている。
論文 参考訳(メタデータ) (2026-02-13T16:22:31Z) - SFFR: Spatial-Frequency Feature Reconstruction for Multispectral Aerial Object Detection [12.521255528136278]
本研究では,新しい空間周波数特徴再構成法 (SFFR) を提案する。
特徴融合の前に空間領域と周波数領域の相補表現を再構成する。
提案するFCEKANモジュールとMSGKANモジュールは相補的であり,それぞれの周波数と空間的意味的特徴を効果的に捉えることができることを示す。
論文 参考訳(メタデータ) (2025-11-09T09:34:10Z) - A Cross-Hierarchical Multi-Feature Fusion Network Based on Multiscale Encoder-Decoder for Hyperspectral Change Detection [3.5421087596321352]
本稿では,マルチスケールエンコーダデコーダアーキテクチャに基づく階層型多機能核融合ネットワーク(CHMFFN)を提案する。
4つの公開ハイパースペクトルデータセットの実験では、CHMFFNは最先端の手法よりも優れており、その有効性を検証する。
論文 参考訳(メタデータ) (2025-09-21T09:04:28Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - Frequency-Dynamic Attention Modulation for Dense Prediction [14.066404173580864]
我々は、周波数ダイナミックアテンション変調(FDAM)と呼ばれる回路理論にインスパイアされた戦略を提案する。
FDAMは視覚変換器(ViT)の総周波数応答を直接調節する
論文 参考訳(メタデータ) (2025-07-16T07:59:54Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Spatial-Spectral Diffusion Contrastive Representation Network for Hyperspectral Image Classification [8.600534616819333]
本稿では,空間スペクトル拡散コントラスト表現ネットワーク(DiffCRN)を提案する。
DiffCRNは、高スペクトル画像分類のための拡散確率モデル(DDPM)とコントラスト学習(CL)の組み合わせに基づく。
広く使われている4つのHSIデータセットを用いて実験を行い、提案したDiffCRNの性能改善を実証した。
論文 参考訳(メタデータ) (2025-02-27T02:34:23Z) - FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Unveiling the Power of Wavelets: A Wavelet-based Kolmogorov-Arnold Network for Hyperspectral Image Classification [3.009351592961681]
本稿では,ウェーブレットをベースとしたKolmogorov-Arnold Network(wav-kan)アーキテクチャを用いて,複雑な依存関係の効率的なモデリングを行う。
ウェーブレットベースのアクティベーションにより、Wav-KANはマルチスケールの空間およびスペクトルパターンを効果的にキャプチャできる。
論文 参考訳(メタデータ) (2024-06-12T04:52:40Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - Transformer variational wave functions for frustrated quantum spin
systems [0.0]
本稿では,ニューラルネットワーク状態の新たなクラスを定義するために,複雑なパラメータを持つViTアーキテクチャの適応を提案する。
ViT波動関数の成功は、局所演算と大域演算の混合に依存する。
論文 参考訳(メタデータ) (2022-11-10T11:56:44Z) - RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional
Network for Retinal OCT Fluid Segmentation [3.57686754209902]
OCTガイド下治療には網膜液の定量化が必要である。
RetiFluidNetと呼ばれる新しい畳み込みニューラルアーキテクチャは、多クラス網膜流体セグメンテーションのために提案されている。
モデルは、テクスチャ、コンテキスト、エッジといった特徴の階層的な表現学習の恩恵を受ける。
論文 参考訳(メタデータ) (2022-09-26T07:18:00Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。