論文の概要: OneHOI: Unifying Human-Object Interaction Generation and Editing
- arxiv url: http://arxiv.org/abs/2604.14062v1
- Date: Wed, 15 Apr 2026 16:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.643977
- Title: OneHOI: Unifying Human-Object Interaction Generation and Editing
- Title(参考訳): OneHOI:人間とオブジェクトのインタラクション生成と編集を統一する
- Authors: Jiun Tian Hoe, Weipeng Hu, Xudong Jiang, Yap-Peng Tan, Chee Seng Chan,
- Abstract要約: OneHOIは、HOI生成と編集を単一の条件記述プロセスに統合する統合拡散トランスフォーマーフレームワークである。
OneHOIはレイアウト誘導、レイアウト不要、任意マスク、混合条件制御をサポートし、HOI生成と編集の両方で最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 36.931038095565235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) modelling captures how humans act upon and relate to objects, typically expressed as <person, action, object> triplets. Existing approaches split into two disjoint families: HOI generation synthesises scenes from structured triplets and layout, but fails to integrate mixed conditions like HOI and object-only entities; and HOI editing modifies interactions via text, yet struggles to decouple pose from physical contact and scale to multiple interactions. We introduce OneHOI, a unified diffusion transformer framework that consolidates HOI generation and editing into a single conditional denoising process driven by shared structured interaction representations. At its core, the Relational Diffusion Transformer (R-DiT) models verb-mediated relations through role- and instance-aware HOI tokens, layout-based spatial Action Grounding, a Structured HOI Attention to enforce interaction topology, and HOI RoPE to disentangle multi-HOI scenes. Trained jointly with modality dropout on our HOI-Edit-44K, along with HOI and object-centric datasets, OneHOI supports layout-guided, layout-free, arbitrary-mask, and mixed-condition control, achieving state-of-the-art results across both HOI generation and editing. Code is available at https://jiuntian.github.io/OneHOI/.
- Abstract(参考訳): ヒューマン・オブジェクト・インタラクション(Human-Object Interaction, HOI)は、人間がどのように振る舞うかをモデル化し、一般に<人, アクション, オブジェクト>三つ子として表現される。
HOI生成は構造化三重項とレイアウトからシーンを合成するが、HOIやオブジェクトのみのエンティティのような混合条件を統合できない。
共有構造的相互作用表現によって駆動される単一条件記述プロセスにHOI生成と編集を統合する統一拡散トランスフォーマフレームワークであるOneHOIを導入する。
中心となるR-DiT(Relational Diffusion Transformer)は、ロールとインスタンスを意識したHOIトークン、レイアウトに基づく空間的アクショングラウンド、相互作用トポロジを強制する構造化HOIアテンション、複数HOIシーンをアンタングルするHOI RoPEをモデル化する。
HOI-Edit-44Kのモダリティドロップアウトと、HOIとオブジェクト中心のデータセットを併用して、OneHOIはレイアウト誘導、レイアウト不要、任意のマスク、混合条件制御をサポートし、HOI生成と編集の両方で最先端の結果を達成する。
コードはhttps://jiuntian.github.io/OneHOI/.comで入手できる。
関連論文リスト
- InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing [73.51964472028392]
本稿では,複数の人物による3Dモーション編集のタスクについて紹介する。
これをサポートするために、InterEdit3D、手動2人動作変更アノテーションを備えた新しいデータセット、およびテキスト誘導多人動作編集(TMME)ベンチマークを提案する。
InterEditはテキスト間の一貫性を改善し、忠実さを編集し、最先端のTMMEパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-03-13T15:30:51Z) - Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing [20.40288070674112]
エンドツーエンドインタラクション対応トランス(InterFormer)を提案する。
DQG(Dynamic Query Generator)、DFS(Dual-context Feature Selector)、CoCo(Conditional Co-occurrence)の3つの重要なコンポーネントを統合している。
提案モデルでは,EgoHOSの最先端性能と,非配布のミニHOI4Dデータセットの課題を両立させる。
論文 参考訳(メタデータ) (2026-02-24T06:39:18Z) - Learning to Generate Human-Human-Object Interactions from Textual Descriptions [15.38195247862565]
本研究では,オブジェクトを含む共有インタラクションに携わる2人の関係をモデル化するための新しい研究課題を提案する。
我々はこの定式化をHHOI(Human-Human-Object Interactions)と呼ぶ。
本稿では,新たに取得したHHOIデータセットと,画像生成モデルを利用してHHOIデータを合成する方法を提案する。
論文 参考訳(メタデータ) (2025-11-25T16:17:23Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - InteractEdit: Zero-Shot Editing of Human-Object Interactions in Images [42.8116807595149]
ゼロショット・ヒューマン・オブジェクト・インタラクション(HOI)編集のための新しいフレームワークであるInteractEditを提案する。
画像内の既存のインタラクションを、対象と対象のアイデンティティを保持しながら、新しい望ましいインタラクションに変換する。
実験の結果,InteractEditは既存の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-03-12T07:40:45Z) - ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives [109.11714588441511]
Ego-Exoオブジェクト対応タスクは,セグメンテーションを通じて,ego-Exoパースペクティブ間のオブジェクト関係を理解することを目的としている。
最近提案されたセグメンテーション手法であるPSALMは、このタスクでデモされたゼロショット能力を例外として挙げている。
我々は、マルチモーダルコンディションフュージョンとSSLベースのクロスビューオブジェクトアライメントという、2つの重要なモジュールを特徴とする新しいアプローチであるObjectRelatorを提案する。
論文 参考訳(メタデータ) (2024-11-28T12:01:03Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。