論文の概要: KAN-FPN-Stem:A KAN-Enhanced Feature Pyramid Stem for Boosting ViT-based Pose Estimation
- arxiv url: http://arxiv.org/abs/2512.22228v1
- Date: Tue, 23 Dec 2025 03:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.910494
- Title: KAN-FPN-Stem:A KAN-Enhanced Feature Pyramid Stem for Boosting ViT-based Pose Estimation
- Title(参考訳): Kan-FPN-Stem: ViT-based Pose Estimation を増強するkan-Enhanced Feature Pyramid Stem
- Authors: HaoNan Tang,
- Abstract要約: 視覚変換器(ViT)は、ポーズ推定のような密集した予測タスクにおいて大きな可能性を証明している。
ViTフロントエンドは「機能改善」(注意)ではなく、「機能融合」(融合)の質にあることが多い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViT) have demonstrated significant promise in dense prediction tasks such as pose estimation. However, their performance is frequently constrained by the overly simplistic front-end designs employed in models like ViTPose. This naive patchification mechanism struggles to effectively handle multi-scale variations and results in irreversible information loss during the initial feature extraction phase. To overcome this limitation, we introduce a novel KAN-enhanced FPN-Stem architecture. Through rigorous ablation studies, we first identified that the true bottleneck for performance improvement lies not in plug-and-play attention modules (e.g., CBAM), but in the post-fusion non-linear smoothing step within the FPN. Guided by this insight, our core innovation is to retain the classic "upsample-and-add" fusion stream of the FPN, but replace its terminal, standard linear 3x3 smoothing convolution with a powerful KAN-based convolutional layer. Leveraging its superior non-linear modeling capabilities, this KAN-based layer adaptively learns and rectifies the "artifacts" generated during the multi-scale fusion process. Extensive experiments on the COCO dataset demonstrate that our KAN-FPN-Stem achieves a significant performance boost of up to +2.0 AP over the lightweight ViTPose-S baseline. This work not only delivers a plug-and-play, high-performance module but, more importantly, reveals that: the performance bottleneck in ViT front-end often lies not in 'feature refinement' (Attention), but in the quality of 'feature fusion' (Fusion). Furthermore, it provides an effective path to address this bottleneck through the introduction of the KAN operator.
- Abstract(参考訳): 視覚変換器(ViT)は、ポーズ推定のような密集した予測タスクにおいて大きな可能性を証明している。
しかし、その性能はViTPoseのようなモデルで使用される非常に単純化されたフロントエンド設計によって制約されることが多い。
このナイーブなパッチ機構は、マルチスケールのバリエーションを効果的に扱うのに苦労し、初期特徴抽出フェーズにおいて不可逆的な情報損失をもたらす。
この制限を克服するために、新しいKAN拡張FPN-Stemアーキテクチャを導入する。
厳密なアブレーション研究により,FPN内の非線形平滑化段階において,演奏改善の真のボトルネックはプラグアンドプレイアテンションモジュール(例えばCBAM)ではなく,FPN内の非線形平滑化段階にあることが分かった。
この洞察に導かれて、我々の中心となるイノベーションは、FPNの古典的な「アップサンプルと追加」融合ストリームを維持することですが、その端末である標準線形3x3のスムーズな畳み込みを、強力なKANSAベースの畳み込み層に置き換えます。
優れた非線形モデリング機能を活用して、このkanベースのレイヤは、マルチスケールの融合プロセスで生成された「人工物」を適応的に学習し、修正する。
COCOデータセットの大規模な実験により、Kan-FPN-Stemは、軽量なViTPose-Sベースラインよりも最大2.0 APの大幅な性能向上を実現している。
この作業は、プラグアンドプレイで高性能なモジュールを提供するだけでなく、より重要なのは、ViTフロントエンドのパフォーマンスボトルネックは、しばしば'機能改善'(注意)ではなく、'機能融合'(フュージョン)の品質にあります。
さらに、kan演算子の導入により、このボトルネックに対処するための効果的なパスを提供する。
関連論文リスト
- KANMixer: Can KAN Serve as a New Modeling Core for Long-term Time Series Forecasting? [17.96421618979159]
我々は,kanの適応能力を完全に活用したマルチスケール混合バックボーンを統合した簡潔なアーキテクチャであるkanMixerを紹介する。
そこで,KanMixerは7つのベンチマークデータセットに対して,28実験のうち16実験で最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-08-03T04:03:13Z) - EFC++: Elastic Feature Consolidation with Prototype Re-balancing for Cold Start Exemplar-free Incremental Learning [27.081942683329416]
本稿では,従来の課題に強く関連する方向のドリフトを規則化し,特徴表現を統一する効果的な手法を提案する。
EFC++は、モデルの可塑性を保ちながら新しいタスクを学習し、最先端を著しく上回る。
論文 参考訳(メタデータ) (2025-03-13T15:01:19Z) - ViKANformer: Embedding Kolmogorov Arnold Networks in Vision Transformers for Pattern-Based Learning [0.0]
視覚変換器(ViT)はパッチ埋め込みに自己注意を適用して画像分類を行う。
本稿では,サブレイヤをKAN拡張に置き換えるViKANformerを提案する。
論文 参考訳(メタデータ) (2025-03-03T03:10:26Z) - Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。
計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。
既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文 参考訳(メタデータ) (2024-12-19T07:48:14Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。