論文の概要: GateAttentionPose: Enhancing Pose Estimation with Agent Attention and Improved Gated Convolutions
- arxiv url: http://arxiv.org/abs/2409.07798v1
- Date: Thu, 12 Sep 2024 07:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 17:27:46.000582
- Title: GateAttentionPose: Enhancing Pose Estimation with Agent Attention and Improved Gated Convolutions
- Title(参考訳): GateAttentionPose: エージェントアテンションによるポーズ推定の強化とゲーテッド・コンボリューションの改善
- Authors: Liang Feng, Zhixuan Shen, Lihua Wen, Shiyao Li, Ming Xu,
- Abstract要約: GateAttentionPoseは、ポーズ推定タスクのためのUniRepLKNetアーキテクチャを強化する革新的なアプローチである。
我々は,エージェント注意モジュールとゲート拡張フィードフォワードブロック(GEFB)の2つの重要なコントリビューションを提示する。
- 参考スコア(独自算出の注目度): 5.447736688938234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces GateAttentionPose, an innovative approach that enhances the UniRepLKNet architecture for pose estimation tasks. We present two key contributions: the Agent Attention module and the Gate-Enhanced Feedforward Block (GEFB). The Agent Attention module replaces large kernel convolutions, significantly improving computational efficiency while preserving global context modeling. The GEFB augments feature extraction and processing capabilities, particularly in complex scenes. Extensive evaluations on COCO and MPII datasets demonstrate that GateAttentionPose outperforms existing state-of-the-art methods, including the original UniRepLKNet, achieving superior or comparable results with improved efficiency. Our approach offers a robust solution for pose estimation across diverse applications, including autonomous driving, human motion capture, and virtual reality.
- Abstract(参考訳): 本稿では、ポーズ推定タスクのためのUniRepLKNetアーキテクチャを強化する革新的なアプローチであるGateAttentionPoseを紹介する。
本稿では,エージェント注意モジュールとゲート拡張フィードフォワードブロック(GEFB)の2つの重要なコントリビューションを紹介する。
Agent Attentionモジュールは大規模なカーネルの畳み込みを置き換え、グローバルなコンテキストモデリングを維持しながら計算効率を大幅に改善する。
GEFBは、特に複雑なシーンにおいて、特徴抽出と処理機能を強化している。
COCOとMPIIデータセットの大規模な評価は、GateAttentionPoseが元のUniRepLKNetを含む既存の最先端メソッドよりも優れており、効率が向上し、優れた結果または同等の結果が得られていることを示している。
このアプローチは、自律運転、人間のモーションキャプチャー、バーチャルリアリティーなど、さまざまなアプリケーションにまたがるポーズ推定のための堅牢なソリューションを提供する。
関連論文リスト
- Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。
Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。
7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文 参考訳(メタデータ) (2024-11-27T18:30:08Z) - Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では,ステップワイズ・パッチ・マージ(SPM)と呼ばれる新しい手法を提案する。
ImageNet-1K、COCO、ADE20Kなどのベンチマークデータセットで実施された大規模な実験は、SPMが様々なモデルの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-09-11T03:04:46Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Multi-Scale Boosted Dehazing Network with Dense Feature Fusion [92.92572594942071]
U-Netアーキテクチャに基づくDense Feature Fusionを用いたマルチスケールブーストデハージングネットワークを提案する。
提案モデルでは,ベンチマークデータセットや実世界のハジー画像に対する最先端のアプローチに対して,好意的に機能することを示す。
論文 参考訳(メタデータ) (2020-04-28T09:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。