論文の概要: AnchorHOI: Zero-shot Generation of 4D Human-Object Interaction via Anchor-based Prior Distillation
- arxiv url: http://arxiv.org/abs/2512.14095v1
- Date: Tue, 16 Dec 2025 05:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.598662
- Title: AnchorHOI: Zero-shot Generation of 4D Human-Object Interaction via Anchor-based Prior Distillation
- Title(参考訳): AnchorHOI:アンカーを用いた事前蒸留による4次元物体相互作用のゼロショット生成
- Authors: Sisi Dai, Kai Xu,
- Abstract要約: 本稿では,テキスト駆動型4Dヒューマンオブジェクトインタラクション(HOI)生成のための新しいフレームワークであるAnchorHOIを紹介する。
画像拡散モデルを超えたビデオ拡散モデルを導入し、4次元HOI生成を推し進めることで、ハイブリッドプライオリティを活用する。
この課題に対処するため、AnchorHOIはアンカーベースの事前蒸留戦略を導入し、相互作用を意識したアンカーを構築する。
2つの調整されたアンカーは、4D HOI 生成のために設計されており、表現的相互作用合成のためのアンカーニューラルレージアンスフィールド(NeRF)と現実的なモーション合成のためのアンカーキーポイントである。
- 参考スコア(独自算出の注目度): 7.913390528478484
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite significant progress in text-driven 4D human-object interaction (HOI) generation with supervised methods, the scalability remains limited by the scarcity of large-scale 4D HOI datasets. To overcome this, recent approaches attempt zero-shot 4D HOI generation with pre-trained image diffusion models. However, interaction cues are minimally distilled during the generation process, restricting their applicability across diverse scenarios. In this paper, we propose AnchorHOI, a novel framework that thoroughly exploits hybrid priors by incorporating video diffusion models beyond image diffusion models, advancing 4D HOI generation. Nevertheless, directly optimizing high-dimensional 4D HOI with such priors remains challenging, particularly for human pose and compositional motion. To address this challenge, AnchorHOI introduces an anchor-based prior distillation strategy, which constructs interaction-aware anchors and then leverages them to guide generation in a tractable two-step process. Specifically, two tailored anchors are designed for 4D HOI generation: anchor Neural Radiance Fields (NeRFs) for expressive interaction composition, and anchor keypoints for realistic motion synthesis. Extensive experiments demonstrate that AnchorHOI outperforms previous methods with superior diversity and generalization.
- Abstract(参考訳): テキスト駆動型4Dヒューマンオブジェクトインタラクション(HOI)生成と教師付き手法の大幅な進歩にもかかわらず、大規模4D HOIデータセットの不足によりスケーラビリティは制限されている。
これを解決するために、最近のアプローチでは、事前訓練された画像拡散モデルを用いてゼロショット4D HOI生成を試みる。
しかし、相互作用キューは生成過程で最小限に蒸留され、様々なシナリオで適用性を制限する。
本稿では,画像拡散モデルを超えて映像拡散モデルを導入し,さらに4次元HOI生成を推し進めることで,ハイブリッド先行を徹底的に活用する新しいフレームワークであるAnchorHOIを提案する。
しかし、特に人間のポーズや構成運動において、このような先行性を持つ高次元の4D HOIを直接最適化することは困難である。
この課題に対処するため、AnchorHOIはアンカーベースの事前蒸留戦略を導入する。
具体的には、4D HOI 生成のための2つの調整アンカーが設計されている: 表現的相互作用合成のためのアンカーニューラルレージアンスフィールド(NeRF)と、現実的なモーション合成のためのアンカーキーポイントである。
大規模な実験により、アンコールホイはより優れた多様性と一般化で従来の手法より優れていたことが示されている。
関連論文リスト
- Uni4D-LLM: A Unified SpatioTemporal-Aware VLM for 4D Understanding and Generation [61.60600246983274]
既存の3Dおよび4Dアプローチは、通常、シーン幾何学を意味的理解とコンテンツ生成のための拡散モデルのための自己回帰モデルに組み込む。
我々は4次元シーン理解と生成のための時間的認識を備えた最初の統合VLMフレームワークであるUni4D-LLMを提案する。
論文 参考訳(メタデータ) (2025-09-28T12:06:54Z) - 4D Driving Scene Generation With Stereo Forcing [62.47705572424127]
現在の生成モデルは、時間外挿と空間的新規ビュー合成(NVS)をシーンごとの最適化なしで同時にサポートする動的4D駆動シーンの合成に苦慮している。
PhiGenesisは、幾何学的・時間的整合性を持った映像生成技術を拡張する4次元シーン生成のための統合フレームワークである。
論文 参考訳(メタデータ) (2025-09-24T15:37:17Z) - Dream4D: Lifting Camera-Controlled I2V towards Spatiotemporally Consistent 4D Generation [3.1852855132066673]
現在のアプローチは、複雑なシーンダイナミクスを処理しながら、ビューの一貫性を維持するのに苦労することが多い。
このフレームワークは、リッチな時間的先行ビデオ拡散モデルと、再構成モデルの幾何学的認識の両方を活用する最初のものである。
これは4D生成を著しく促進し、既存の方法よりも高い品質(mPSNR、mSSIMなど)を示す。
論文 参考訳(メタデータ) (2025-08-11T08:55:47Z) - GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects [13.830968058014546]
GenHOI は,1) 見えない物体への一般化,2) 高忠実度 4D HOI 配列の合成という2つの主要な目的を達成するための2段階のフレームワークである。
接触認識拡散モデル (ContactDM) を第2段階に導入し, 3D HOI を高密な時間的コヒーレントな 4D HOI 配列にシームレスに補間する。
実験の結果,OMOMODMおよび3D-FUTUREデータセットについて,現状の成果が得られた。
論文 参考訳(メタデータ) (2025-06-18T14:17:53Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - 4Dynamic: Text-to-4D Generation with Hybrid Priors [56.918589589853184]
本稿では,ビデオによる直接監督によって動的振幅と信頼性を保証し,テキストから4Dへ変換する新しい手法を提案する。
本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
論文 参考訳(メタデータ) (2024-07-17T16:02:55Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。