論文の概要: InfBaGel: Human-Object-Scene Interaction Generation with Dynamic Perception and Iterative Refinement
- arxiv url: http://arxiv.org/abs/2604.04843v1
- Date: Mon, 06 Apr 2026 16:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.290439
- Title: InfBaGel: Human-Object-Scene Interaction Generation with Dynamic Perception and Iterative Refinement
- Title(参考訳): InfBaGel:動的知覚と反復的リファインメントによるヒューマン・オブジェクト・シーンインタラクション生成
- Authors: Yude Zou, Junji Gong, Xing Gao, Zixuan Li, Tianxing Chen, Guanjie Zheng,
- Abstract要約: 人間-オブジェクト-シーン相互作用(HOSI)生成は、AI、シミュレーション、アニメーションに広く応用されている。
整合性モデルの反復的復調過程に整合した粗大な命令条件付き相互作用生成フレームワークを提案する。
本手法は,HOSI世代とHOI世代の両方で最先端の性能を実現し,見えない場面に強い。
- 参考スコア(独自算出の注目度): 15.184022425476256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-object-scene interactions (HOSI) generation has broad applications in embodied AI, simulation, and animation. Unlike human-object interaction (HOI) and human-scene interaction (HSI), HOSI generation requires reasoning over dynamic object-scene changes, yet suffers from limited annotated data. To address these issues, we propose a coarse-to-fine instruction-conditioned interaction generation framework that is explicitly aligned with the iterative denoising process of a consistency model. In particular, we adopt a dynamic perception strategy that leverages trajectories from the preceding refinement to update scene context and condition subsequent refinement at each denoising step of consistency model, yielding consistent interactions. To further reduce physical artifacts, we introduce a bump-aware guidance that mitigates collisions and penetrations during sampling without requiring fine-grained scene geometry, enabling real-time generation. To overcome data scarcity, we design a hybrid training startegy that synthesizes pseudo-HOSI samples by injecting voxelized scene occupancy into HOI datasets and jointly trains with high-fidelity HSI data, allowing interaction learning while preserving realistic scene awareness. Extensive experiments demonstrate that our method achieves state-of-the-art performance in both HOSI and HOI generation, and strong generalization to unseen scenes. Project page: https://yudezou.github.io/InfBaGel-page/
- Abstract(参考訳): 人間-オブジェクト-シーン相互作用(HOSI)生成は、AI、シミュレーション、アニメーションに広く応用されている。
ヒト・オブジェクト・インタラクション(HOI)やヒト・シーン・インタラクション(HSI)とは異なり、HOSI生成は動的オブジェクト・シーンの変化を推論する必要があるが、限られた注釈付きデータに悩まされる。
これらの問題に対処するために、一貫性モデルの反復的記述プロセスに明示的に整合した粗大な命令条件付きインタラクション生成フレームワークを提案する。
特に,先行する改良の軌跡を利用した動的知覚戦略を採用し,一貫性モデルの各デノイングステップにおけるシーンコンテキストとその後の条件を更新し,一貫した相互作用をもたらす。
物理的アーティファクトをさらに低減するために,詳細なシーン形状を必要とせずに,サンプリング時の衝突や侵入を軽減し,リアルタイム生成を可能にするバンプアウェアガイダンスを導入する。
データ不足を克服するため,本研究では,HOIデータセットにボクセル化シーン占有度を注入して擬似HOSIサンプルを合成し,高忠実度HSIデータと共同でトレーニングし,リアルなシーン認識を維持しながら対話学習を可能にするハイブリッドトレーニング戦略を設計した。
広汎な実験により,HOSI世代とHOI世代の両方で最先端の性能を実現し,未知のシーンへの強力な一般化を実現した。
プロジェクトページ:https://yudezou.github.io/InfBaGel-page/
関連論文リスト
- GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection [54.879037588415656]
GenHOIは、事前訓練されたビデオ生成モデルに対する軽量な拡張である。
参照オブジェクト情報を時間的にバランスよく空間的に選択的に注入する。
GenHOIは最先端のHOI再現やオールインワンのビデオ編集方法よりも優れています。
論文 参考訳(メタデータ) (2026-03-06T09:01:09Z) - Learning Whole-Body Human-Humanoid Interaction from Human-Human Demonstrations [63.80827184637476]
D-STAR(D-STAR)は,行動すべき場所から行動すべき場所を乱す階層的な政策である。
広範かつ厳密なシミュレーションを通じて、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-14T14:37:06Z) - FantasyHSI: Video-Generation-Centric 4D Human Synthesis In Any Scene through A Graph-based Multi-Agent Framework [10.386464385736842]
HSI(Human-Scene Interaction)は、複雑な環境の中で現実的な人間の行動を生成する。
HSIは、長期の高レベルのタスクの処理と、見えないシーンへの一般化において、課題に直面している。
本稿では,ビデオ生成とマルチエージェントシステムを中心とした新しいHSIフレームワークであるFantasyHSIを紹介する。
論文 参考訳(メタデータ) (2025-09-01T08:20:50Z) - SimGenHOI: Physically Realistic Whole-Body Humanoid-Object Interaction via Generative Modeling and Reinforcement Learning [6.255814224573073]
SimGenHOIは、生成モデリングと強化学習の強みを組み合わせた統一的なフレームワークであり、制御可能で物理的に妥当なHOIを生成する。
本研究では,Diffusion Transformers (DiT) に基づくHOI生成モデルを用いて,テキストプロンプト,オブジェクト形状,スパースオブジェクトウェイポイント,初期ヒューマノイドポーズのセットを予測した。
身体的現実性を確保するため,強化学習で訓練された接触認識全身制御ポリシーを設計し,その動作をトラッキングし,侵入や足の滑りなどのアーティファクトを補正する。
論文 参考訳(メタデータ) (2025-08-18T15:20:46Z) - Auto-Regressive Diffusion for Generating 3D Human-Object Interactions [5.587507490937267]
HOI生成の鍵となる課題は、長いシーケンスでの相互作用の一貫性を維持することである。
本稿では,次の連続トークンを予測する自己回帰拡散モデル(ARDHOI)を提案する。
このモデルはOMOMOとBEHAVEのデータセットで評価されている。
論文 参考訳(メタデータ) (2025-03-21T02:25:59Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object
Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。
ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。
我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文 参考訳(メタデータ) (2022-03-14T04:56:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。