Fugu-MT 論文翻訳(概要): SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

論文の概要: SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

arxiv url: http://arxiv.org/abs/2603.00443v1
Date: Sat, 28 Feb 2026 03:51:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.19556
Title: SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment
Title（参考訳）: SesaHand: セマンティック・構造アライメントによる制御可能な生成による3次元ハンドコンストラクションの強化
Authors: Zhuoran Zhao, Xianghao Kong, Linlin Yang, Zheng Wei, Pan Hui, Anyi Rao,
Abstract要約: 生成モデルは多様な手画像を生成するための有望な代替手段である。本稿ではセサHandを提案する。セサHandはセマンティックと構造的アライメントの両面から手動画像を生成する。実験により,本手法は, 生成性能の向上だけでなく, 生成した手動画像による手動3次元再構成も向上することが示された。
参考スコア（独自算出の注目度）: 38.103458669002684
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies on 3D hand reconstruction have demonstrated the effectiveness of synthetic training data to improve estimation performance. However, most methods rely on game engines to synthesize hand images, which often lack diversity in textures and environments, and fail to include crucial components like arms or interacting objects. Generative models are promising alternatives to generate diverse hand images, but still suffer from misalignment issues. In this paper, we present SesaHand, which enhances controllable hand image generation from both semantic and structural alignment perspectives for 3D hand reconstruction. Specifically, for semantic alignment, we propose a pipeline with Chain-of-Thought inference to extract human behavior semantics from image captions generated by the Vision-Language Model. This semantics suppresses human-irrelevant environmental details and ensures sufficient human-centric contexts for hand image generation. For structural alignment, we introduce hierarchical structural fusion to integrate structural information with different granularity for feature refinement to better align the hand and the overall human body in generated images. We further propose a hand structure attention enhancement method to efficiently enhance the model's attention on hand regions. Experiments demonstrate that our method not only outperforms prior work in generation performance but also improves 3D hand reconstruction with the generated hand images.
Abstract（参考訳）: 近年の3次元手指再建法の研究は, 合成トレーニングデータの有効性を実証し, 推定性能を向上した。しかし、ほとんどの手法は手動画像の合成にゲームエンジンに依存しており、テクスチャや環境の多様性に欠けることが多く、腕や相互作用する物体といった重要な要素を含まない。生成モデルは多様な手画像を生成するための有望な代替手段である。本稿では,意味的・構造的アライメントの両面から手動画像を生成するSesaHandを提案する。具体的には、セマンティックアライメントのために、視覚言語モデルによって生成された画像キャプションから人間の行動意味を抽出するために、Chain-of-Thought推論を用いたパイプラインを提案する。このセマンティクスは、人間と無関係な環境の詳細を抑圧し、手動画像生成に十分な人間中心のコンテキストを保証する。構造的アライメントのために,階層的構造融合を導入し,構造情報を異なる粒度で統合し,特徴改善を行い,手と人体全体の整合性を向上する。さらに,手指領域におけるモデルの注意力を高めるために,手指構造注意力向上手法を提案する。実験により,本手法は, 生成性能の向上だけでなく, 生成した手動画像による手動3次元再構成も向上することが示された。

関連論文リスト

HumanCrafter: Synergizing Generalizable Human Reconstruction and Semantic 3D Segmentation [51.27178551863772]
本研究では,1つの画像から外見と人間部分のセマンティクスをモデリングする統合的なフレームワークを提案する。 HumanCrafterは、3Dの人間の部分分割と1枚の画像からの3Dの人間の再構築の両方において、既存の最先端の手法を超越している。
論文参考訳（メタデータ） (2025-11-01T09:29:36Z)
EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。最初の再構築では、事前に誘導された最適化方式を採用する。
論文参考訳（メタデータ） (2024-11-21T16:33:35Z)
RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance [41.213241942526935]
RHanDSは、不整形手を洗練するために設計された条件付き拡散ベースのフレームワークである。不整形手から再構成された手メッシュは、手の構造を修正するための構造ガイダンスを提供する。不整形手自体は、手のスタイルを保存するためのスタイルガイダンスを提供する。
論文参考訳（メタデータ） (2024-04-22T08:44:34Z)
HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions [68.28684509445529]
HandBoosterは、データの多様性を向上し、3Dハンド・ミーシュ・リコンストラクションのパフォーマンスを向上する新しいアプローチである。まず,多様な手やポーズ,ビュー,背景を持つリアルな画像を生成するために,拡散モデルを誘導する多目的コンテンツ認識条件を構築した。そこで我々は,我々の類似性を考慮した分布サンプリング戦略に基づく新しい条件作成手法を設計し,トレーニングセットとは異なる,斬新で現実的なインタラクションのポーズを意図的に見つける。
論文参考訳（メタデータ） (2024-03-27T13:56:08Z)
HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances [34.50137847908887]
テキスト・ツー・イメージ生成モデルは高品質な人間を生み出すことができるが、現実主義は手を生成する際に失われる。一般的なアーティファクトには、不規則な手ポーズ、形、不正確な指の数、物理的に不明瞭な指の向きなどがある。そこで我々はHanDiffuserという新しい拡散型アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-03-04T03:00:22Z)
3D Points Splatting for Real-Time Dynamic Hand Reconstruction [13.392046706568275]
3Dポイントスプレイティングハンドリコンストラクション(3D-PSHR)はリアルタイム・光リアルハンドリコンストラクション手法である。本稿では,高分解能手形状表現を実現するための自己適応型標準点アップ戦略を提案する。テクスチャをモデル化するため,本態性アルベドとポーズアウェアシェーディングの外観色を分離した。
論文参考訳（メタデータ） (2023-12-21T11:50:49Z)
HandNeRF: Learning to Reconstruct Hand-Object Interaction Scene from a Single RGB Image [41.580285338167315]
本稿では,1枚のRGB画像から3次元手オブジェクトシーンを再構成する前に,手オブジェクト間のインタラクションを学習する方法を提案する。我々は手形状を用いて手と物体形状の相対的な構成を制約する。そこで,HandNeRFは,手動による新たなグリップ構成のシーンを,同等の手法よりも高精度に再構築可能であることを示す。
論文参考訳（メタデータ） (2023-09-14T17:42:08Z)
HiFiHR: Enhancing 3D Hand Reconstruction from a Single Image via High-Fidelity Texture [40.012406098563204]
一つの画像から学習フレームワークのレンダリング・アンド・コンパレンスを利用する高忠実手再構成手法であるHiFiHRを提案する。 FreiHAND や HO-3D などの公開ベンチマークによる実験結果から, テクスチャ再構築における手作り工法よりも優れた性能を示した。
論文参考訳（メタデータ） (2023-08-25T18:48:40Z)
gSDF: Geometry-Driven Signed Distance Functions for 3D Hand-Object Reconstruction [94.46581592405066]
我々は手の構造を利用してSDFによる形状復元の指導を行う。我々は、ポーズ変換のキネマティック連鎖を予測し、SDFを高調波ハンドポーズと整列させる。
論文参考訳（メタデータ） (2023-04-24T10:05:48Z)
Joint Hand-object 3D Reconstruction from a Single Image with Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文参考訳（メタデータ） (2020-06-28T09:50:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。