Fugu-MT 論文翻訳(概要): LWA-HAND: Lightweight Attention Hand for Interacting Hand Reconstruction

論文の概要: LWA-HAND: Lightweight Attention Hand for Interacting Hand Reconstruction

arxiv url: http://arxiv.org/abs/2208.09815v1
Date: Sun, 21 Aug 2022 06:25:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-23 13:24:18.704604
Title: LWA-HAND: Lightweight Attention Hand for Interacting Hand Reconstruction
Title（参考訳）: LWA-HAND:ハンドリコンストラクションのための軽量アテンションハンド
Authors: Xinhan Di, Pengqian Yu
Abstract要約: 本稿では,LWA-HAND(Lightlight attention hand)という手法を提案し,単一のRGB画像から低フロップで手を再構築する。結果として得られたモデルは、InterHand2.6Mベンチマークで、最先端のモデルと比較して同等のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 2.2481284426718533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hand reconstruction has achieved great success in real-time applications such as visual reality and augmented reality while interacting with two-hand reconstruction through efficient transformers is left unexplored. In this paper, we propose a method called lightweight attention hand (LWA-HAND) to reconstruct hands in low flops from a single RGB image. To solve the occlusion and interaction challenges in efficient attention architectures, we introduce three mobile attention modules. The first module is a lightweight feature attention module that extracts both local occlusion representation and global image patch representation in a coarse-to-fine manner. The second module is a cross image and graph bridge module which fuses image context and hand vertex. The third module is a lightweight cross-attention mechanism that uses element-wise operation for cross attention of two hands in linear complexity. The resulting model achieves comparable performance on the InterHand2.6M benchmark in comparison with the state-of-the-art models. Simultaneously, it reduces the flops to $0.47GFlops$ while the state-of-the-art models have heavy computations between $10GFlops$ and $20GFlops$.
Abstract（参考訳）: 視覚現実感や拡張現実といったリアルタイムアプリケーションにおいて、効率的なトランスフォーマーによる両手再構成と対話しながら、ハンドレコンストラクションは大きな成功を収めている。本稿では,軽量アテンションハンド (lwa-hand) と呼ばれる,単一のrgb画像から低フラップで手を取り替える手法を提案する。効率的なアテンションアーキテクチャにおけるオクルージョンとインタラクションの課題を解決するため,3つのモバイルアテンションモジュールを導入する。第1モジュールは、局所閉塞表現とグローバルイメージパッチ表現の両方を粗い方法で抽出する軽量な機能注意モジュールである。第2のモジュールは、イメージコンテキストとハンド頂点を融合するクロスイメージおよびグラフブリッジモジュールである。第3のモジュールは軽量なクロスアテンション機構であり、線形複雑度において両手のクロスアテンションに要素操作を用いる。その結果得られたモデルは、interhand2.6mベンチマークで最先端モデルと比較して同等のパフォーマンスを達成している。同時にフロップを0.47GFlops$に減らし、最先端モデルは10GFlops$から20GFlops$の間で重い計算を行う。

関連論文リスト

HandOcc: NeRF-based Hand Rendering with Occupancy Networks [33.9893684177763]
本稿では,手書きレンダリングのための新しいフレームワークであるHandOccを提案する。本稿では,メッシュレス3Dレンダリングのためのパイプラインについて述べる。ベンチマークのInterHand2.6Mデータセットで最先端の結果を得る。
論文参考訳（メタデータ） (2025-05-04T12:06:54Z)
VM-BHINet:Vision Mamba Bimanual Hand Interaction Network for 3D Interacting Hand Mesh Recovery From a Single RGB Image [13.009696075460521]
Vision Mamba Bimanual Hand Interaction Network (VM-BHINet)は、状態空間モデル(SSM)を手再構成に導入し、インタラクションモデリングを強化する。コアコンポーネントであるVision Mamba Interaction Feature extract Block (VM-IFEBlock)は、SSMとローカルおよびグローバルな機能操作を組み合わせたものだ。 InterHand2.6Mデータセットの実験では、VM-BHINetは、結合位置の平均値(MPJPE)と頂点位置の平均値(MPVPE)を2-3%削減している。
論文参考訳（メタデータ） (2025-04-20T13:54:22Z)
FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T14:42:27Z)
Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba [48.45301469664908]
1枚のRGB画像からの3Dハンド再構成は、関節運動、自己閉塞、物体との相互作用により困難である。既存のSOTA法では、3Dハンドポーズと形状を学ぶためにアテンションベースのトランスフォーマーを採用している。本稿では,グラフ学習と状態空間モデリングを橋渡しするHambaというグラフ誘導型Mambaフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-12T19:04:58Z)
3D Pose Estimation of Two Interacting Hands from a Monocular Event Camera [59.846927201816776]
本稿では,1つの単眼イベントカメラから手の動きの速い2つの手の動きを3次元追跡するための最初のフレームワークを紹介する。本手法は, 半教師付き機能的注意機構により, 左手のあいまいさに対処し, 交差点の損失を補足して手衝突を解消する。
論文参考訳（メタデータ） (2023-12-21T18:59:57Z)
Mutual Information-driven Triple Interaction Network for Efficient Image Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文参考訳（メタデータ） (2023-08-14T08:23:58Z)
Im2Hands: Learning Attentive Implicit Representation of Interacting Two-Hand Shapes [58.551154822792284]
Implicit Two Hands (Im2Hands) は、2つの相互作用する手の最初の暗黙の表現である。 Im2Handsは、両手と手と手と画像のコヒーレンシーの高い2つの手のきめ細かい幾何学を生成することができる。両手再建におけるIm2Handsの有効性を, 関連手法と比較して実験的に実証した。
論文参考訳（メタデータ） (2023-02-28T06:38:25Z)
Decoupled Iterative Refinement Framework for Interacting Hands Reconstruction from a Single RGB Image [30.24438569170251]
画素アライメント・ハンド再構成を実現するために,分離された反復的精細化フレームワークを提案する。提案手法は、InterHand2.6Mデータセットにおいて、既存の2手再構成手法を大きなマージンで上回っている。
論文参考訳（メタデータ） (2023-02-05T15:46:57Z)
Interacting Attention Graph for Single Image Two-Hand Reconstruction [32.342152070402236]
IntagHand(Interacting Attention Graph Hand)は、1つのRGB画像から2つのインタラクションハンドを再構築する最初のグラフ畳み込みベースのネットワークである。提案手法は,InterHand2.6Mベンチマークにおいて,既存の2手再構成手法を大きなマージンで上回っている。
論文参考訳（メタデータ） (2022-03-17T14:51:11Z)
MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image [18.68544438724187]
本研究では,高速な推論速度,時間的コヒーレンスを同時に実現可能な単一視点ハンドメッシュ再構築フレームワークを提案する。私たちのフレームワークであるMobReconは、安価な計算コストとミニチュアモデルサイズを備えており、Apple A14 CPU上で83FPSの高速な推論速度を実現しています。
論文参考訳（メタデータ） (2021-12-06T03:01:24Z)
Monocular 3D Reconstruction of Interacting Hands via Collision-Aware Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文参考訳（メタデータ） (2021-11-01T08:24:10Z)
Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文参考訳（メタデータ） (2021-06-15T11:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。