Fugu-MT 論文翻訳(概要): HVG-3D: Bridging Real and Simulation Domains for 3D-Conditional Hand-Object Interaction Video Synthesis

論文の概要: HVG-3D: Bridging Real and Simulation Domains for 3D-Conditional Hand-Object Interaction Video Synthesis

arxiv url: http://arxiv.org/abs/2604.03305v1
Date: Tue, 31 Mar 2026 01:28:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:18.490339
Title: HVG-3D: Bridging Real and Simulation Domains for 3D-Conditional Hand-Object Interaction Video Synthesis
Title（参考訳）: HVG-3D:3次元手-物間相互作用ビデオ合成のための実領域とシミュレーション領域のブリッジング
Authors: Mingjin Chen, Junhao Chen, Zhaoxin Fan, Yujian Lee, Zichen Dang, Lili Wang, Yawen Cui, Lap-Pui Chau, Yi Wang,
Abstract要約: HVG-3Dは、明示的な3D表現を条件とした3D対応手オブジェクトインタラクション(HOI)ビデオ合成のための統合フレームワークである。推測において、シミュレーションまたは実データから1つの実画像と3D制御信号が与えられた場合、HVG-3Dは高忠実で時間的に一貫したビデオを生成する。
参考スコア（独自算出の注目度）: 31.820451049177095
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent methods have made notable progress in the visual quality of hand-object interaction video synthesis. However, most approaches rely on 2D control signals that lack spatial expressiveness and limit the utilization of synthetic 3D conditional data. To address these limitations, we propose HVG-3D, a unified framework for 3D-aware hand-object interaction (HOI) video synthesis conditioned on explicit 3D representations. Specifically, we develop a diffusion-based architecture augmented with a 3D ControlNet, which encodes geometric and motion cues from 3D inputs to enable explicit 3D reasoning during video synthesis. To achieve high-quality synthesis, HVG-3D is designed with two core components: (i) a 3D-aware HOI video generation diffusion architecture that encodes geometric and motion cues from 3D inputs for explicit 3D reasoning; and (ii) a hybrid pipeline for constructing input and condition signals, enabling flexible and precise control during both training and inference. During inference, given a single real image and a 3D control signal from either simulation or real data, HVG-3D generates high-fidelity, temporally consistent videos with precise spatial and temporal control. Experiments on the TASTE-Rob dataset demonstrate that HVG-3D achieves state-of-the-art spatial fidelity, temporal coherence, and controllability, while enabling effective utilization of both real and simulated data.
Abstract（参考訳）: 近年,手動物体間相互作用ビデオ合成の視覚的品質が顕著に向上している。しかし、ほとんどのアプローチは空間表現性に欠け、合成3D条件データの利用を制限する2次元制御信号に依存している。これらの制約に対処するために,明快な3次元表現を条件とした3D-Aware Hand-Object Interaction (HOI) ビデオ合成のための統合フレームワークであるHVG-3Dを提案する。具体的には、3D制御ネットを付加した拡散型アーキテクチャを開発し、3D入力から幾何学的および運動的キューを符号化し、ビデオ合成中に明示的な3D推論を可能にする。高品質な合成を実現するため、HVG-3Dは2つのコアコンポーネントで設計されている。 (i)明快な3次元推論のために3次元入力から幾何学的および運動的手がかりを符号化した3D対応HOIビデオ生成拡散アーキテクチャ二入力信号と条件信号を構築するためのハイブリッドパイプラインで、トレーニングと推論の両方において柔軟かつ正確な制御を可能にする。シミュレーションまたは実データから1つの実画像と3D制御信号が与えられた場合、HVG-3Dは高精度な空間的および時間的制御を備えた高忠実で時間的に一貫したビデオを生成する。 TASTE-Robデータセットの実験では、HVG-3Dは、実データとシミュレーションデータの両方を効果的に活用しながら、最先端の空間忠実度、時間的コヒーレンス、制御性を達成することを示した。

関連論文リスト

Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints [87.13154261503168]
モーションコントロール可能なビデオ生成は、仮想現実と組み込みAIにおけるエゴセントリックなアプリケーションに不可欠である。既存の手法は、しばしば3D一貫性のきめ細かい手話を実現するのに苦労する。単一の参照フレームからエゴセントリックなビデオを生成する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2026-03-12T10:02:23Z)
Drag4D: Align Your Motion with Text-Driven 3D Scene Generation [77.79131321983677]
Drag4Dはインタラクティブなフレームワークで、テキスト駆動の3Dシーン生成にオブジェクトの動き制御を統合する。このフレームワークにより、ユーザーは単一の画像から生成された3Dオブジェクトに対して3Dトラジェクトリを定義し、それらを高品質な3D背景にシームレスに統合することができる。
論文参考訳（メタデータ） (2025-09-26T05:23:45Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation [24.255633621887988]
本研究では,2次元拡散モデルの暗黙的3次元推論能力を活用しながら3次元の整合性を確保する手法を提案する。具体的には、提案したガウススプラッティングデコーダは、SV3D潜在出力を明示的な3D表現に変換することで、3D一貫性を強制する。その結果,高品質でマルチビュー一貫性のある画像と正確な3Dモデルが同時に生成されることがわかった。
論文参考訳（メタデータ） (2025-03-08T09:10:31Z)
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。 3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文参考訳（メタデータ） (2024-10-12T10:14:11Z)
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文参考訳（メタデータ） (2024-09-05T17:21:54Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。 3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文参考訳（メタデータ） (2024-03-18T17:54:34Z)
HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data [42.49031063635004]
本研究では,現実的かつ多様な3次元ハンドオブジェクトインタラクションデータを生成するためのHOIDiffusionを提案する。本モデルは,3次元手対象幾何学構造とテキスト記述を画像合成の入力として用いた条件拡散モデルである。生成した3Dデータを6次元オブジェクトのポーズ推定学習に適用し,認識システムの改善に有効であることを示す。
論文参考訳（メタデータ） (2024-03-18T17:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。