論文の概要: Chatting about Upper-Body Expressive Human Pose and Shape Estimation
- arxiv url: http://arxiv.org/abs/2604.17959v1
- Date: Mon, 20 Apr 2026 08:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.770269
- Title: Chatting about Upper-Body Expressive Human Pose and Shape Estimation
- Title(参考訳): 上半身表現型人間詩の座談会と形状推定
- Authors: Yuxiang Zhao, Wei Huang, Yujie Song, Liu Wang, Huan Zhao,
- Abstract要約: CoEvoerは、上半身の表現型人間の姿勢と形状推定(EHPS)に適した相乗的相互依存型トランスフォーマーフレームワークである。
CoEvoerは、異なる身体部分間での明示的な機能レベルのインタラクションを可能にし、コンテキスト情報交換による相互強化を可能にする。
CoEvoerは、上半身のベンチマークで最先端のパフォーマンスを達成し、目に見えない野生の画像でも強力な一般化能力を示す。
- 参考スコア(独自算出の注目度): 8.85950464984589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expressive Human Pose and Shape Estimation (EHPS) plays a crucial role in various AR/VR applications and has witnessed significant progress in recent years. However, current state-of-the-art methods still struggle with accurate parameter estimation for facial and hand regions and exhibit limited generalization to wild images. To address these challenges, we present CoEvoer, a novel one-stage synergistic cross-dependency transformer framework tailored for upper-body EHPS. CoEvoer enables explicit feature-level interaction across different body parts, allowing for mutual enhancement through contextual information exchange. Specifically, larger and more easily estimated regions such as the torso provide global semantics and positional priors to guide the estimation of finer, more complex regions like the face and hands. Conversely, the localized details captured in facial and hand regions help refine and calibrate adjacent body parts. To the best of our knowledge, CoEvoer is the first framework designed specifically for upper-body EHPS, with the goal of capturing the strong coupling and semantic dependencies among the face, hands, and torso through joint parameter regression. Extensive experiments demonstrate that CoEvoer achieves state-of-the-art performance on upper-body benchmarks and exhibits strong generalization capability even on unseen wild images.
- Abstract(参考訳): EHPS(Expressive Human Pose and Shape Estimation)は、様々なAR/VRアプリケーションにおいて重要な役割を担い、近年大きな進歩を遂げている。
しかし、現在の最先端手法は、顔領域と手領域の正確なパラメータ推定に苦慮し、野生画像への限定的な一般化を示す。
これらの課題に対処するため,上半身のEHPSに適した1段階の相乗的相互依存トランスフォーマフレームワークであるCoEvoerを提案する。
CoEvoerは、異なる身体部分間での明示的な機能レベルのインタラクションを可能にし、コンテキスト情報交換による相互強化を可能にする。
具体的には、胴体のようなより大きく容易に推定できる領域は、顔や手のようなより細い複雑な領域の推定を導くために、大域的な意味論と位置的先行情報を提供する。
逆に、顔と手の領域で捉えた局所的な詳細は、隣接する身体部分の精細化と校正に役立ちます。
私たちの知る限り、CoEvoerは、顔、手、胴体間の強い結合と意味的依存関係を、関節パラメータの回帰によって捉えることを目的として、上半身のEHPS用に特別に設計された最初のフレームワークです。
大規模な実験により、CoEvoerは上半身のベンチマークで最先端のパフォーマンスを達成し、目に見えない野生の画像でも強力な一般化能力を示すことが示された。
関連論文リスト
- HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation [74.34984994596813]
HEXは、ヒューマノイドロボットの協調操作のための状態中心のフレームワークである。
ヘテロジニアスな実施形態をまたいだスケーラブルな学習のための、ヒューマノイドに整合した普遍的状態表現が組み込まれている。
タスクの成功率と一般化における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-04-09T09:01:43Z) - Dynamic Avatar-Scene Rendering from Human-centric Context [75.95641456716373]
分離されたモデルと最適化されたモデルをブリッジするbf分離マップ(StM)戦略を提案する。
StMは、視覚的品質とレンダリングの精度の両方において、既存の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-11-13T17:39:06Z) - HOIGaze: Gaze Estimation During Hand-Object Interactions in Extended Reality Exploiting Eye-Hand-Head Coordination [10.982807572404166]
HOIGAzeは、拡張現実(XR)における手物体相互作用(HOI)中の視線推定のための学習的アプローチ
眼、手、頭部の動きは、HOIにおいて密接に調整されており、この調整は、視線訓練に最も有用なサンプルを特定するために利用することができる。
HOT3DとAriaデジタルツイン(ADT)のデータセット上でHOIGazeを評価し,最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-04-28T14:31:43Z) - DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image [98.29284902879652]
DICEは1枚の画像から変形認識による手と顔のインタラクションを再現する最初のエンドツーエンド手法である。
ローカルな変形場とグローバルなメッシュ位置の回帰を2つのネットワークブランチに切り離すことが特徴である。
標準的なベンチマークと、精度と物理的妥当性の点から見れば、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-26T00:08:29Z) - GEARS: Local Geometry-aware Hand-object Interaction Synthesis [38.75942505771009]
本研究では, 相互作用領域近傍の局所物体形状を推定するための, 結合中心型センサを提案する。
学習の複雑さを軽減するための重要なステップとして、グローバルフレームからテンプレートハンドフレームにポイントを変換し、共有モジュールを使用して各関節のセンサ特徴を処理する。
これに続いて、異なる次元の関節間の相関を捉えることを目的とした知覚時間変換ネットワークが提供される。
論文 参考訳(メタデータ) (2024-04-02T09:18:52Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Robust Facial Expression Recognition with Convolutional Visual
Transformers [23.05378099875569]
コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。
まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。
第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
論文 参考訳(メタデータ) (2021-03-31T07:07:56Z) - Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture
Recognition [9.131161856493486]
本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。
我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。
提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-01-17T10:14:28Z) - DIRV: Dense Interaction Region Voting for End-to-End Human-Object
Interaction Detection [53.40028068801092]
本稿では,HOI問題に対するインタラクション領域という新しい概念に基づいて,新しい一段階HOI検出手法を提案する。
従来の手法とは異なり,本手法は人-物対ごとに異なるスケールにわたる密集した相互作用領域に焦点をあてる。
単一相互作用領域の検出欠陥を補うために,我々は新しい投票戦略を導入する。
論文 参考訳(メタデータ) (2020-10-02T13:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。