論文の概要: Adaptive graph Kolmogorov-Arnold network for 3D human pose estimation
- arxiv url: http://arxiv.org/abs/2511.08809v1
- Date: Thu, 13 Nov 2025 01:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.235398
- Title: Adaptive graph Kolmogorov-Arnold network for 3D human pose estimation
- Title(参考訳): 3次元ポーズ推定のための適応グラフKolmogorov-Arnoldネットワーク
- Authors: Abu Taib Mohammed Shahjahan, A. Ben Hamza,
- Abstract要約: グラフ畳み込みネットワーク(GCN)に基づく手法は,3次元ポーズ推定において高い性能を示した。
本稿では,2次元から3次元のポーズリフトをグラフベースで学習するフレームワークPoseKANを紹介する。
本モデルではマルチホップ機能アグリゲーションを用いて,身体の関節が局所的および遠隔的隣人からの情報を活用することを保証している。
- 参考スコア(独自算出の注目度): 3.3946853660795884
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Graph convolutional network (GCN)-based methods have shown strong performance in 3D human pose estimation by leveraging the natural graph structure of the human skeleton. However, their local receptive field limits their ability to capture long-range dependencies essential for handling occlusions and depth ambiguities. They also exhibit spectral bias, which prioritizes low-frequency components while struggling to model high-frequency details. In this paper, we introduce PoseKAN, an adaptive graph Kolmogorov-Arnold Network (KAN), framework that extends KANs to graph-based learning for 2D-to-3D pose lifting from a single image. Unlike GCNs that use fixed activation functions, KANs employ learnable functions on graph edges, allowing data-driven, adaptive feature transformations. This enhances the model's adaptability and expressiveness, making it more expressive in learning complex pose variations. Our model employs multi-hop feature aggregation, ensuring the body joints can leverage information from both local and distant neighbors, leading to improved spatial awareness. It also incorporates residual PoseKAN blocks for deeper feature refinement, and a global response normalization for improved feature selectivity and contrast. Extensive experiments on benchmark datasets demonstrate the competitive performance of our model against state-of-the-art methods.
- Abstract(参考訳): グラフ畳み込みネットワーク(GCN)に基づく手法は,人間の骨格の自然グラフ構造を利用して3次元ポーズ推定において高い性能を示した。
しかし、その局所受容野は、オクルージョンや奥行きの曖昧さを扱うのに必要な長距離依存を捕捉する能力を制限する。
スペクトルバイアスは、高周波の詳細をモデル化するのに苦労しながら、低周波成分を優先する。
本稿では,Kansを2次元から3次元のポーズリフトのためのグラフベース学習に拡張した適応グラフKan(KAN)について紹介する。
固定アクティベーション関数を使用するGCNとは異なり、kanはグラフエッジ上で学習可能な関数を使用し、データ駆動で適応的な特徴変換を可能にする。
これにより、モデルの適応性と表現性が向上し、複雑なポーズのバリエーションを学ぶ上でより表現力を高めます。
本モデルでは,マルチホップ機能アグリゲーションを用いて,身体の関節が局所的,遠隔的双方からの情報を活用できることを保証し,空間的意識の向上に寄与する。
また、より深い機能改善のための残留するPoseKANブロックや、機能選択性とコントラストを改善するためのグローバル応答正規化も組み込まれている。
ベンチマークデータセットの大規模な実験は、最先端の手法に対する我々のモデルの競争性能を実証している。
関連論文リスト
- 3D Human Pose Estimation via Spatial Graph Order Attention and Temporal Body Aware Transformer [5.303583360581161]
本稿では,GCNのグラフモデリング機能を利用して,各スケルトンを異なる順序の複数のグラフで表現する手法を提案する。
提案した時間的ボディアウェア変換器を用いてシーケンスの空間的特徴を処理する。
Human3.6m, MPIINF-3DHP, HumanEva-Iデータセットを用いた実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-05-02T04:58:04Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Flexible graph convolutional network for 3D human pose estimation [4.696083734269233]
より広範なグローバル情報や依存関係をキャプチャするグラフ表現を学習するために設計されたフレキシブルなグラフ畳み込みネットワークであるFlex-GCNを紹介します。
中心となるのはフレキシブルグラフの畳み込みであり、各ノードの即時および二階隣人の両方の特徴を集約する。
我々のネットワークアーキテクチャは、フレキシブルグラフ畳み込み層の残留ブロックと、グローバルな特徴集約、正規化、キャリブレーションのためのグローバル応答正規化層から構成される。
論文 参考訳(メタデータ) (2024-07-26T20:46:28Z) - Iterative Graph Filtering Network for 3D Human Pose Estimation [5.177947445379688]
グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。
本稿では,3次元ポーズ推定のための反復グラフフィルタリングフレームワークを提案する。
我々のアプローチは、ラプラシア正規化によるグラフフィルタリングを反復的に解くという考え方に基づいている。
論文 参考訳(メタデータ) (2023-07-29T20:46:44Z) - Skeleton-Parted Graph Scattering Networks for 3D Human Motion Prediction [120.08257447708503]
体-関節関係をモデル化するグラフ畳み込みネットワークに基づく手法は,最近3次元骨格に基づく人間の動作予測において大きな可能性を示唆している。
骨格分割グラフ散乱ネットワーク(SPGSN)を提案する。
SPGSNは、Human3.6M、CMU Mocap、および3DPWデータセット上で、関節位置誤差(MPJPE)当たりの3D平均の13.8%、9.3%、および2.7%の差で最先端の手法を上回っている。
論文 参考訳(メタデータ) (2022-07-31T05:51:39Z) - Higher-Order Implicit Fairing Networks for 3D Human Pose Estimation [1.1501261942096426]
2次元から3次元のポーズ推定のための初期残差接続を持つ高階グラフ畳み込みフレームワークを提案する。
我々のモデルは、体節間の長距離依存関係を捉えることができる。
2つの標準ベンチマークで行った実験と改善研究は、我々のモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:48:55Z) - Revisiting Skeleton-based Action Recognition [107.08112310075114]
PoseC3Dは骨格に基づく行動認識の新しいアプローチであり、代わりに人間の骨格のベース表現としてグラフシーケンスを積み重ねる3Dヒートマップに依存している。
4つの挑戦的なデータセットにおいて、PoseC3Dは、スケルトン上で単独で使用し、RGBモダリティと組み合わせることで、常に優れたパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-04-28T06:32:17Z) - On the spatial attention in Spatio-Temporal Graph Convolutional Networks
for skeleton-based human action recognition [97.14064057840089]
カルチャーネットワーク(GCN)は、スケルトンをグラフとしてモデル化することで、スケルトンに基づく人間の行動認識の性能を約束する。
最近提案されたG時間に基づく手法のほとんどは、ネットワークの各層におけるグラフ構造を学習することで、性能を向上させる。
論文 参考訳(メタデータ) (2020-11-07T19:03:04Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。