論文の概要: Unleashing Guidance Without Classifiers for Human-Object Interaction Animation
- arxiv url: http://arxiv.org/abs/2603.25734v1
- Date: Thu, 26 Mar 2026 17:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.428651
- Title: Unleashing Guidance Without Classifiers for Human-Object Interaction Animation
- Title(参考訳): 人-物間相互作用アニメーションのための分類子のない解答誘導
- Authors: Ziyin Wang, Sirui Xu, Chuan Guo, Bing Zhou, Jiangshan Gong, Jian Wang, Yu-Xiong Wang, Liang-Yan Gui,
- Abstract要約: 従来の拡散に基づくアプローチは、しばしば接触品質を改善するために手作りの接触先行や人為的なキネマティック制約に頼っている。
そこで本研究では,手作業による事前設計への依存を軽減し,手作業による指導を段階的に行うデータ駆動型代替手法を提案する。
このデータ駆動型ガイダンスは本質的に接触認識であり,広い範囲の合成対象測地でトレーニングを行う際に拡張可能である。
- 参考スコア(独自算出の注目度): 54.24065561632133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic human-object interaction (HOI) animations remains challenging because it requires jointly modeling dynamic human actions and diverse object geometries. Prior diffusion-based approaches often rely on hand-crafted contact priors or human-imposed kinematic constraints to improve contact quality. We propose LIGHT, a data-driven alternative in which guidance emerges from the denoising pace itself, reducing dependence on manually designed priors. Building on diffusion forcing, we factor the representation into modality-specific components and assign individualized noise levels with asynchronous denoising schedules. In this paradigm, cleaner components guide noisier ones through cross-attention, yielding guidance without auxiliary classifiers. We find that this data-driven guidance is inherently contact-aware, and can be enhanced when training is augmented with a broad spectrum of synthetic object geometries, encouraging invariance of contact semantics to geometric diversity. Extensive experiments show that pace-induced guidance more effectively mirrors the benefits of contact priors than conventional classifier-free guidance, while achieving higher contact fidelity, more realistic HOI generation, and stronger generalization to unseen objects and tasks.
- Abstract(参考訳): リアルなヒューマン・オブジェクト・インタラクション(HOI)アニメーションの生成は、動的なヒューマンアクションと多様なオブジェクト・ジオメトリを共同でモデル化する必要があるため、依然として困難である。
従来の拡散に基づくアプローチは、しばしば接触品質を改善するために手作りの接触先行や人為的なキネマティック制約に頼っている。
LIGHTは、手作業による事前設計への依存を軽減し、手作業による指示が発覚するデータ駆動型代替手段である。
拡散強制に基づいて、表現をモダリティ固有成分に分解し、個別化ノイズレベルを非同期なデノナイズスケジュールで割り当てる。
このパラダイムでは、よりクリーンなコンポーネントは、クロスアテンションを通じてノイズの多いコンポーネントを誘導し、補助的な分類子なしでガイダンスを得る。
このデータ駆動型ガイダンスは本質的に接触認識であり, 広範囲の合成対象ジオメトリでトレーニングを増強することで, 接触セマンティクスと幾何学的多様性の相違を促すことができる。
広汎な実験により、ペース誘導誘導は従来の分類器なし誘導よりも接触前の利点を効果的に反映し、高い接触忠実性、より現実的なHOI生成、そして目に見えない物体やタスクへのより強力な一般化を実現していることが示された。
関連論文リスト
- InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions [58.329946838699044]
人間は、明示的な全身運動のレベルで、物体と全身の相互作用を計画することは滅多にない。
このような事前のスケーリングは、ヒューマノイドがロコ操作スキルの構築と一般化を可能にする鍵となる。
我々は,強化学習による大規模模倣事前学習とポストトレーニングを通じて,統合生成コントローラを学習するフレームワークであるInterPriorを紹介する。
論文 参考訳(メタデータ) (2026-02-05T18:59:27Z) - Learning Whole-Body Human-Humanoid Interaction from Human-Human Demonstrations [63.80827184637476]
D-STAR(D-STAR)は,行動すべき場所から行動すべき場所を乱す階層的な政策である。
広範かつ厳密なシミュレーションを通じて、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-14T14:37:06Z) - FSAG: Enhancing Human-to-Dexterous-Hand Finger-Specific Affordance Grounding via Diffusion Models [11.581489292735418]
デクサラスグリップ合成は機能的意図と物理的実現性を満たす必要があるが、既存のパイプラインはしばしば洗練からセマンティックグラウンドを分離する。
本研究では、事前学習された生成拡散モデルにおいて、対象中心のセマンティックな事前情報を活用することで、ロボットの把握データ収集を回避できるデータ効率フレームワークを提案する。
この結果は,人間の実演と事前学習した生成モデルによって駆動される,スケーラブルでハードウェアに依存しないデキスタラスな操作への道のりを浮き彫りにした。
論文 参考訳(メタデータ) (2026-01-13T06:08:56Z) - Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models [80.28579390566298]
テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-12-22T18:59:50Z) - Decoupled Generative Modeling for Human-Object Interaction Synthesis [35.78156236836254]
既存のアプローチでは、しばしば手動で指定した中間のウェイポイントを必要とし、最適化の目的を1つのネットワークに配置する。
DecHOI(Decoupled Generative Modeling for Human-Object Interaction Synthesis)を提案する。
軌道生成装置は、まず、所定のウェイポイントを伴わずに人や物体の軌道を生成し、これらの経路に作用生成条件を設けて詳細な動作を合成する。
論文 参考訳(メタデータ) (2025-12-22T05:33:59Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Contact-Aware Retargeting of Skinned Motion [49.71236739408685]
本稿では,自己接触を保存し,相互接続を防止する動作推定手法を提案する。
入力運動における自己接触と接地を同定し、出力骨格に適用するための動作を最適化する。
実験では,従来の手法を定量的に上回り,近年の成果よりも高い品質で再ターゲットされた動きを評価できるユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-09-15T17:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。