論文の概要: TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures
- arxiv url: http://arxiv.org/abs/2602.19679v1
- Date: Mon, 23 Feb 2026 10:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.768307
- Title: TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures
- Title(参考訳): TeHOR:テクスチャを用いたテキストガイド型3Dヒューマンとオブジェクト再構成
- Authors: Hyeongjin Nam, Daniel Sungho Jung, Kyoung Mu Lee,
- Abstract要約: 単一の画像から3次元の人間と物体を共同で再構成することは、ロボット工学やデジタルコンテンツ制作において重要な応用例となる、活発な研究領域である。
既存のアプローチは物理的接触情報に大きく依存しており、非接触的な人間と物体の相互作用を捉えることはできない。
本稿では,2つのコア設計に基づくフレームワークTeHORを紹介する。まず,人間とオブジェクトの相互作用のテキスト記述を活用し,セマンティックアライメントを強制する。
第2に、3次元人間と物体の外観の手がかりをアライメントプロセスに組み込んで、全体的文脈情報をキャプチャする。
- 参考スコア(独自算出の注目度): 53.21603129469796
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Joint reconstruction of 3D human and object from a single image is an active research area, with pivotal applications in robotics and digital content creation. Despite recent advances, existing approaches suffer from two fundamental limitations. First, their reconstructions rely heavily on physical contact information, which inherently cannot capture non-contact human-object interactions, such as gazing at or pointing toward an object. Second, the reconstruction process is primarily driven by local geometric proximity, neglecting the human and object appearances that provide global context crucial for understanding holistic interactions. To address these issues, we introduce TeHOR, a framework built upon two core designs. First, beyond contact information, our framework leverages text descriptions of human-object interactions to enforce semantic alignment between the 3D reconstruction and its textual cues, enabling reasoning over a wider spectrum of interactions, including non-contact cases. Second, we incorporate appearance cues of the 3D human and object into the alignment process to capture holistic contextual information, thereby ensuring visually plausible reconstructions. As a result, our framework produces accurate and semantically coherent reconstructions, achieving state-of-the-art performance.
- Abstract(参考訳): 単一の画像から3次元の人間と物体を共同で再構成することは、ロボット工学やデジタルコンテンツ制作において重要な応用例となる、活発な研究領域である。
最近の進歩にもかかわらず、既存のアプローチには2つの基本的な制限がある。
第一に、それらの再構成は物理的接触情報に大きく依存しており、それは本質的に、物体を見つめたり、対象に向かって指さしたりといった非接触的な人間と物体の相互作用を捉えることができない。
第二に、再構成プロセスは、主に局所的な幾何学的近接によって駆動され、全体的相互作用を理解する上で重要なグローバルなコンテキストを提供する人間と物体の外観を無視する。
これらの問題に対処するため、我々は2つのコア設計に基づいて構築されたフレームワークTeHORを紹介した。
まず,接触情報以外では,人間と物体の相互作用のテキスト記述を利用して3次元再構成とそのテキスト的手がかりのセマンティックアライメントを強制し,非接触事例を含むより広い範囲の相互作用の推論を可能にする。
第2に、3次元人間と物体の外観的手がかりをアライメントプロセスに組み込むことにより、全体的文脈情報を捕捉し、視覚的に妥当な再構築を可能にする。
その結果、我々のフレームワークは正確でセマンティックなコヒーレントな再構築を実現し、最先端のパフォーマンスを実現した。
関連論文リスト
- Object Reconstruction under Occlusion with Generative Priors and Contact-induced Constraints [20.702086497025494]
本稿では、視覚信号のあいまいさを軽減するために、2つの余分な情報源を利用する。
まず、生成モデルは、よく見られる物体の形状の先行を学習し、幾何学の見当たらない部分について合理的な推測をすることができる。
第二に、ビデオと物理的相互作用から得られる接触情報は、幾何学の境界にスパース制約を与える。
論文 参考訳(メタデータ) (2025-12-04T18:45:14Z) - Realistic Clothed Human and Object Joint Reconstruction from a Single Image [26.57698106821237]
モノクラービューからリアルな3D衣服と物体を共同で再構築するための新しい暗黙のアプローチを導入する。
初めて、私たちは暗黙の表現で人間と物体の両方をモデル化し、衣服のようなより現実的な詳細を捉えます。
論文 参考訳(メタデータ) (2025-02-25T12:26:36Z) - Betsu-Betsu: Multi-View Separable 3D Reconstruction of Two Interacting Objects [67.96148051569993]
本稿では, 近接相互作用中の2つの物体の形状と外観を再構成し, 両者を3次元で解離させるニューロ・インシシシット法を提案する。
フレームワークはエンドツーエンドのトレーニングが可能で、新しいアルファブレンディング正規化を使用して管理されている。
我々は,人間と物体の密接な相互作用からなる新しいデータセットを導入するとともに,武道を行う人間の2つの場面について評価する。
論文 参考訳(メタデータ) (2025-02-19T18:59:56Z) - Single-image coherent reconstruction of objects and humans [16.836684199314938]
モノクル画像から物体や人間を再構成する既存の方法は、激しいメッシュ衝突と性能制限に悩まされている。
本稿では,1つの画像から対話対象と人物を相互に一貫した3次元再構成する手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T11:27:18Z) - Joint Reconstruction of 3D Human and Object via Contact-Based Refinement Transformer [58.98785899556135]
本研究では,人間と物体の接触情報を効果的に活用する新しい関節型3次元物体再構成法(CONTHO)を提案する。
本システムには,1)3次元ガイドによる接触推定と,2)接触に基づく人間と物体の微細化の2つのコア設計がある。
論文 参考訳(メタデータ) (2024-04-07T06:01:49Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。