論文の概要: GateAttentionPose: Enhancing Pose Estimation with Agent Attention and Improved Gated Convolutions
- arxiv url: http://arxiv.org/abs/2409.07798v1
- Date: Thu, 12 Sep 2024 07:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-13 17:27:46.000582
- Title: GateAttentionPose: Enhancing Pose Estimation with Agent Attention and Improved Gated Convolutions
- Title(参考訳): GateAttentionPose: エージェントアテンションによるポーズ推定の強化とゲーテッド・コンボリューションの改善
- Authors: Liang Feng, Zhixuan Shen, Lihua Wen, Shiyao Li, Ming Xu,
- Abstract要約: GateAttentionPoseは、ポーズ推定タスクのためのUniRepLKNetアーキテクチャを強化する革新的なアプローチである。
我々は,エージェント注意モジュールとゲート拡張フィードフォワードブロック(GEFB)の2つの重要なコントリビューションを提示する。
- 参考スコア(独自算出の注目度): 5.447736688938234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces GateAttentionPose, an innovative approach that enhances the UniRepLKNet architecture for pose estimation tasks. We present two key contributions: the Agent Attention module and the Gate-Enhanced Feedforward Block (GEFB). The Agent Attention module replaces large kernel convolutions, significantly improving computational efficiency while preserving global context modeling. The GEFB augments feature extraction and processing capabilities, particularly in complex scenes. Extensive evaluations on COCO and MPII datasets demonstrate that GateAttentionPose outperforms existing state-of-the-art methods, including the original UniRepLKNet, achieving superior or comparable results with improved efficiency. Our approach offers a robust solution for pose estimation across diverse applications, including autonomous driving, human motion capture, and virtual reality.
- Abstract(参考訳): 本稿では、ポーズ推定タスクのためのUniRepLKNetアーキテクチャを強化する革新的なアプローチであるGateAttentionPoseを紹介する。
本稿では,エージェント注意モジュールとゲート拡張フィードフォワードブロック(GEFB)の2つの重要なコントリビューションを紹介する。
Agent Attentionモジュールは大規模なカーネルの畳み込みを置き換え、グローバルなコンテキストモデリングを維持しながら計算効率を大幅に改善する。
GEFBは、特に複雑なシーンにおいて、特徴抽出と処理機能を強化している。
COCOとMPIIデータセットの大規模な評価は、GateAttentionPoseが元のUniRepLKNetを含む既存の最先端メソッドよりも優れており、効率が向上し、優れた結果または同等の結果が得られていることを示している。
このアプローチは、自律運転、人間のモーションキャプチャー、バーチャルリアリティーなど、さまざまなアプリケーションにまたがるポーズ推定のための堅牢なソリューションを提供する。
関連論文リスト
- Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - InvFussion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems [76.39776789410088]
この研究は、教師付きアプローチの強いパフォーマンスとゼロショットメソッドの柔軟性を組み合わせたフレームワークを導入している。
新規なアーキテクチャ設計では、分解演算子を直接デノイザにシームレスに統合する。
FFHQとImageNetデータセットの実験結果は、最先端の後方サンプリング性能を示している。
論文 参考訳(メタデータ) (2025-04-02T12:40:57Z) - Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - CAVE: Classifying Abnormalities in Video Capsule Endoscopy [0.1937002985471497]
本研究では,複雑な画像データセットの分類精度を向上させるために,アンサンブルに基づくアプローチを検討する。
各モデルのユニークな特徴抽出機能を活用し、全体的な精度を向上させる。
実験により、アンサンブルは難易度と不均衡度の高いクラス間で高い精度と堅牢性を達成することが示された。
論文 参考訳(メタデータ) (2024-10-26T17:25:08Z) - Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では,ステップワイズ・パッチ・マージ(SPM)と呼ばれる新しい手法を提案する。
ImageNet-1K、COCO、ADE20Kなどのベンチマークデータセットで実施された大規模な実験は、SPMが様々なモデルの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-09-11T03:04:46Z) - Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency [0.5497663232622965]
iANETは、長距離依存のモデリングを改善するために設計された、効率的なハイブリッド視覚バックボーンである。
iiANETの中核となる革新は、iiABlockである。これは、グローバルなr-MHSA(Multi-Head Self-Attention)とパリルルにおける畳み込みレイヤを内部で記述する、統一されたビルディングブロックである。
論文 参考訳(メタデータ) (2024-07-10T12:39:02Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Multi-Scale Boosted Dehazing Network with Dense Feature Fusion [92.92572594942071]
U-Netアーキテクチャに基づくDense Feature Fusionを用いたマルチスケールブーストデハージングネットワークを提案する。
提案モデルでは,ベンチマークデータセットや実世界のハジー画像に対する最先端のアプローチに対して,好意的に機能することを示す。
論文 参考訳(メタデータ) (2020-04-28T09:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。