論文の概要: LWA-HAND: Lightweight Attention Hand for Interacting Hand Reconstruction
- arxiv url: http://arxiv.org/abs/2208.09815v2
- Date: Tue, 23 Aug 2022 03:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 10:41:05.481305
- Title: LWA-HAND: Lightweight Attention Hand for Interacting Hand Reconstruction
- Title(参考訳): LWA-HAND:ハンドリコンストラクションのための軽量アテンションハンド
- Authors: Xinhan Di, Pengqian Yu
- Abstract要約: 本稿では,LWA-HAND(Lightlight attention hand)という手法を提案し,単一のRGB画像から低フロップで手を再構築する。
結果として得られたモデルは、InterHand2.6Mベンチマークで、最先端のモデルと比較して同等のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 2.2481284426718533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand reconstruction has achieved great success in real-time applications such
as visual reality and augmented reality while interacting with two-hand
reconstruction through efficient transformers is left unexplored. In this
paper, we propose a method called lightweight attention hand (LWA-HAND) to
reconstruct hands in low flops from a single RGB image. To solve the occlusion
and interaction challenges in efficient attention architectures, we introduce
three mobile attention modules. The first module is a lightweight feature
attention module that extracts both local occlusion representation and global
image patch representation in a coarse-to-fine manner. The second module is a
cross image and graph bridge module which fuses image context and hand vertex.
The third module is a lightweight cross-attention mechanism that uses
element-wise operation for cross attention of two hands in linear complexity.
The resulting model achieves comparable performance on the InterHand2.6M
benchmark in comparison with the state-of-the-art models. Simultaneously, it
reduces the flops to $0.47GFlops$ while the state-of-the-art models have heavy
computations between $10GFlops$ and $20GFlops$.
- Abstract(参考訳): 視覚現実感や拡張現実といったリアルタイムアプリケーションにおいて、効率的なトランスフォーマーによる両手再構成と対話しながら、ハンドレコンストラクションは大きな成功を収めている。
本稿では,軽量アテンションハンド (lwa-hand) と呼ばれる,単一のrgb画像から低フラップで手を取り替える手法を提案する。
効率的なアテンションアーキテクチャにおけるオクルージョンとインタラクションの課題を解決するため,3つのモバイルアテンションモジュールを導入する。
第1モジュールは、局所閉塞表現とグローバルイメージパッチ表現の両方を粗い方法で抽出する軽量な機能注意モジュールである。
第2のモジュールは、イメージコンテキストとハンド頂点を融合するクロスイメージおよびグラフブリッジモジュールである。
第3のモジュールは軽量なクロスアテンション機構であり、線形複雑度において両手のクロスアテンションに要素操作を用いる。
その結果得られたモデルは、interhand2.6mベンチマークで最先端モデルと比較して同等のパフォーマンスを達成している。
同時にフロップを0.47GFlops$に減らし、最先端モデルは10GFlops$から20GFlops$の間で重い計算を行う。
関連論文リスト
- Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba [48.45301469664908]
1枚のRGB画像からの3Dハンド再構成は、関節運動、自己閉塞、物体との相互作用により困難である。
既存のSOTA法では、3Dハンドポーズと形状を学ぶためにアテンションベースのトランスフォーマーを採用している。
本稿では,グラフ学習と状態空間モデリングを橋渡しするHambaというグラフ誘導型Mambaフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-12T19:04:58Z) - 3D Pose Estimation of Two Interacting Hands from a Monocular Event
Camera [59.846927201816776]
本稿では,1つの単眼イベントカメラから手の動きの速い2つの手の動きを3次元追跡するための最初のフレームワークを紹介する。
本手法は, 半教師付き機能的注意機構により, 左手のあいまいさに対処し, 交差点の損失を補足して手衝突を解消する。
論文 参考訳(メタデータ) (2023-12-21T18:59:57Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Im2Hands: Learning Attentive Implicit Representation of Interacting
Two-Hand Shapes [58.551154822792284]
Implicit Two Hands (Im2Hands) は、2つの相互作用する手の最初の暗黙の表現である。
Im2Handsは、両手と手と手と画像のコヒーレンシーの高い2つの手のきめ細かい幾何学を生成することができる。
両手再建におけるIm2Handsの有効性を, 関連手法と比較して実験的に実証した。
論文 参考訳(メタデータ) (2023-02-28T06:38:25Z) - Decoupled Iterative Refinement Framework for Interacting Hands
Reconstruction from a Single RGB Image [30.24438569170251]
画素アライメント・ハンド再構成を実現するために,分離された反復的精細化フレームワークを提案する。
提案手法は、InterHand2.6Mデータセットにおいて、既存の2手再構成手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-02-05T15:46:57Z) - Interacting Attention Graph for Single Image Two-Hand Reconstruction [32.342152070402236]
IntagHand(Interacting Attention Graph Hand)は、1つのRGB画像から2つのインタラクションハンドを再構築する最初のグラフ畳み込みベースのネットワークである。
提案手法は,InterHand2.6Mベンチマークにおいて,既存の2手再構成手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-17T14:51:11Z) - MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image [18.68544438724187]
本研究では,高速な推論速度,時間的コヒーレンスを同時に実現可能な単一視点ハンドメッシュ再構築フレームワークを提案する。
私たちのフレームワークであるMobReconは、安価な計算コストとミニチュアモデルサイズを備えており、Apple A14 CPU上で83FPSの高速な推論速度を実現しています。
論文 参考訳(メタデータ) (2021-12-06T03:01:24Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。