論文の概要: GateAttentionPose: Enhancing Pose Estimation with Agent Attention and Improved Gated Convolutions
- arxiv url: http://arxiv.org/abs/2409.07798v1
- Date: Thu, 12 Sep 2024 07:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 17:27:46.000582
- Title: GateAttentionPose: Enhancing Pose Estimation with Agent Attention and Improved Gated Convolutions
- Title(参考訳): GateAttentionPose: エージェントアテンションによるポーズ推定の強化とゲーテッド・コンボリューションの改善
- Authors: Liang Feng, Zhixuan Shen, Lihua Wen, Shiyao Li, Ming Xu,
- Abstract要約: GateAttentionPoseは、ポーズ推定タスクのためのUniRepLKNetアーキテクチャを強化する革新的なアプローチである。
我々は,エージェント注意モジュールとゲート拡張フィードフォワードブロック(GEFB)の2つの重要なコントリビューションを提示する。
- 参考スコア(独自算出の注目度): 5.447736688938234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces GateAttentionPose, an innovative approach that enhances the UniRepLKNet architecture for pose estimation tasks. We present two key contributions: the Agent Attention module and the Gate-Enhanced Feedforward Block (GEFB). The Agent Attention module replaces large kernel convolutions, significantly improving computational efficiency while preserving global context modeling. The GEFB augments feature extraction and processing capabilities, particularly in complex scenes. Extensive evaluations on COCO and MPII datasets demonstrate that GateAttentionPose outperforms existing state-of-the-art methods, including the original UniRepLKNet, achieving superior or comparable results with improved efficiency. Our approach offers a robust solution for pose estimation across diverse applications, including autonomous driving, human motion capture, and virtual reality.
- Abstract(参考訳): 本稿では、ポーズ推定タスクのためのUniRepLKNetアーキテクチャを強化する革新的なアプローチであるGateAttentionPoseを紹介する。
本稿では,エージェント注意モジュールとゲート拡張フィードフォワードブロック(GEFB)の2つの重要なコントリビューションを紹介する。
Agent Attentionモジュールは大規模なカーネルの畳み込みを置き換え、グローバルなコンテキストモデリングを維持しながら計算効率を大幅に改善する。
GEFBは、特に複雑なシーンにおいて、特徴抽出と処理機能を強化している。
COCOとMPIIデータセットの大規模な評価は、GateAttentionPoseが元のUniRepLKNetを含む既存の最先端メソッドよりも優れており、効率が向上し、優れた結果または同等の結果が得られていることを示している。
このアプローチは、自律運転、人間のモーションキャプチャー、バーチャルリアリティーなど、さまざまなアプリケーションにまたがるポーズ推定のための堅牢なソリューションを提供する。
関連論文リスト
- CAVE: Classifying Abnormalities in Video Capsule Endoscopy [0.1937002985471497]
本研究では,複雑な画像データセットの分類精度を向上させるために,アンサンブルに基づくアプローチを検討する。
各モデルのユニークな特徴抽出機能を活用し、全体的な精度を向上させる。
実験により、アンサンブルは難易度と不均衡度の高いクラス間で高い精度と堅牢性を達成することが示された。
論文 参考訳(メタデータ) (2024-10-26T17:25:08Z) - Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では,ステップワイズ・パッチ・マージ(SPM)と呼ばれる新しい手法を提案する。
ImageNet-1K、COCO、ADE20Kなどのベンチマークデータセットで実施された大規模な実験は、SPMが様々なモデルの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-09-11T03:04:46Z) - Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Multi-Scale Boosted Dehazing Network with Dense Feature Fusion [92.92572594942071]
U-Netアーキテクチャに基づくDense Feature Fusionを用いたマルチスケールブーストデハージングネットワークを提案する。
提案モデルでは,ベンチマークデータセットや実世界のハジー画像に対する最先端のアプローチに対して,好意的に機能することを示す。
論文 参考訳(メタデータ) (2020-04-28T09:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。