論文の概要: End-to-End HOI Reconstruction Transformer with Graph-based Encoding
- arxiv url: http://arxiv.org/abs/2503.06012v1
- Date: Sat, 08 Mar 2025 02:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:31.821155
- Title: End-to-End HOI Reconstruction Transformer with Graph-based Encoding
- Title(参考訳): グラフ符号化を用いたエンド・ツー・エンドHOI再構成変換器
- Authors: Zhenrong Wang, Qi Zheng, Sihan Ma, Maosheng Ye, Yibing Zhan, Dongjiang Li,
- Abstract要約: 既存のHOI再構成手法は、人間と物体の相互作用を明示的にモデル化することに依存することが多い。
グラフを用いたエンド・ツー・エンドHOI再構成を提案する。
Mesh Transformer (HOI-TG) は明示的なモデリングの限界に対処する。
- 参考スコア(独自算出の注目度): 30.47553592203429
- License:
- Abstract: With the diversification of human-object interaction (HOI) applications and the success of capturing human meshes, HOI reconstruction has gained widespread attention. Existing mainstream HOI reconstruction methods often rely on explicitly modeling interactions between humans and objects. However, such a way leads to a natural conflict between 3D mesh reconstruction, which emphasizes global structure, and fine-grained contact reconstruction, which focuses on local details. To address the limitations of explicit modeling, we propose the End-to-End HOI Reconstruction Transformer with Graph-based Encoding (HOI-TG). It implicitly learns the interaction between humans and objects by leveraging self-attention mechanisms. Within the transformer architecture, we devise graph residual blocks to aggregate the topology among vertices of different spatial structures. This dual focus effectively balances global and local representations. Without bells and whistles, HOI-TG achieves state-of-the-art performance on BEHAVE and InterCap datasets. Particularly on the challenging InterCap dataset, our method improves the reconstruction results for human and object meshes by 8.9% and 8.6%, respectively.
- Abstract(参考訳): 人-物相互作用(HOI)応用の多様化と人メッシュ捕獲の成功により,HOI再建が注目されている。
既存のHOI再構成手法は、人間と物体の相互作用を明示的にモデル化することに依存することが多い。
しかし、このような方法では、グローバルな構造を強調する3Dメッシュ再構成と、局所的な詳細に焦点を当てたきめ細かな接触再構成との自然な衝突につながる。
明示的モデリングの限界に対処するため,グラフベース符号化(HOI-TG)を用いたエンド・ツー・エンドHOI再構成変換器を提案する。
人間と物体の相互作用を暗黙的に学習する。
トランスアーキテクチャでは,異なる空間構造の頂点間のトポロジーを集約するために,グラフ残差ブロックを考案する。
この二重焦点は、グローバルとローカルの表現を効果的にバランスさせる。
ベルとホイッスルなしで、HOI-TGはBEHAVEとInterCapデータセット上で最先端のパフォーマンスを達成する。
特に難易度の高いInterCapデータセットでは,人間メッシュとオブジェクトメッシュの再構成結果がそれぞれ8.9%,物体メッシュが8.6%向上した。
関連論文リスト
- Reconstructing People, Places, and Cameras [57.81696692335401]
Humans and Structure from Motion (HSfM) は、メカニカルワールド座標系において、複数の人メッシュ、シーンポイント雲、カメラパラメータを共同で再構築する手法である。
以上の結果から,SfMパイプラインに人体データを組み込むことで,カメラのポーズ推定が改善された。
論文 参考訳(メタデータ) (2024-12-23T18:58:34Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Graph Transformer GANs with Graph Masked Modeling for Architectural
Layout Generation [153.92387500677023]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
提案したグラフ変換器エンコーダは、局所的およびグローバルな相互作用をモデル化するために、Transformer内のグラフ畳み込みと自己アテンションを組み合わせる。
また,グラフ表現学習のための自己指導型事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:36:38Z) - ShapeGraFormer: GraFormer-Based Network for Hand-Object Reconstruction from a Single Depth Map [11.874184782686532]
そこで本研究では, 現実的な3次元物体形状に対する最初のアプローチを提案し, 一つの深度マップから復元する。
我々のパイプラインは、入力されたボキセル化深度に1対1のマッピングを持つ、ボキセル化ハンドオブジェクト形状も予測する。
さらに、手動オブジェクトの相互作用に基づいて再構成された形状を洗練する別のGraFormerコンポーネントを追加する影響を示す。
論文 参考訳(メタデータ) (2023-10-18T09:05:57Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z) - Mesh Graphormer [17.75480888764098]
グラフ畳み込み強化変換器であるMesh Graphormerを1枚の画像から3次元の人間のポーズとメッシュ再構成を行う。
論文 参考訳(メタデータ) (2021-04-01T06:16:36Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。