論文の概要: HOComp: Interaction-Aware Human-Object Composition
- arxiv url: http://arxiv.org/abs/2507.16813v1
- Date: Tue, 22 Jul 2025 17:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.248185
- Title: HOComp: Interaction-Aware Human-Object Composition
- Title(参考訳): HOComp: インタラクションを意識したヒューマンオブジェクト合成
- Authors: Dong Liang, Jinyuan Jia, Yuhao Liu, Rynson W. H. Lau,
- Abstract要約: HOCompは、人中心の背景画像に前景オブジェクトを合成するための新しいアプローチである。
実験結果から,HOCompは一貫した外見を持つ人間と物体の相互作用を効果的に生成することが示された。
- 参考スコア(独自算出の注目度): 62.93211305213214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While existing image-guided composition methods may help insert a foreground object onto a user-specified region of a background image, achieving natural blending inside the region with the rest of the image unchanged, we observe that these existing methods often struggle in synthesizing seamless interaction-aware compositions when the task involves human-object interactions. In this paper, we first propose HOComp, a novel approach for compositing a foreground object onto a human-centric background image, while ensuring harmonious interactions between the foreground object and the background person and their consistent appearances. Our approach includes two key designs: (1) MLLMs-driven Region-based Pose Guidance (MRPG), which utilizes MLLMs to identify the interaction region as well as the interaction type (e.g., holding and lefting) to provide coarse-to-fine constraints to the generated pose for the interaction while incorporating human pose landmarks to track action variations and enforcing fine-grained pose constraints; and (2) Detail-Consistent Appearance Preservation (DCAP), which unifies a shape-aware attention modulation mechanism, a multi-view appearance loss, and a background consistency loss to ensure consistent shapes/textures of the foreground and faithful reproduction of the background human. We then propose the first dataset, named Interaction-aware Human-Object Composition (IHOC), for the task. Experimental results on our dataset show that HOComp effectively generates harmonious human-object interactions with consistent appearances, and outperforms relevant methods qualitatively and quantitatively.
- Abstract(参考訳): 既存の画像誘導合成法は、背景画像のユーザ指定領域に前景オブジェクトを挿入し、画像の他の部分と自然なブレンディングを実現するのに役立つが、これらの既存の手法は、タスクが人間とオブジェクトの相互作用を伴う場合に、しばしばシームレスなインタラクション・アウェア・コンポジションの合成に苦慮している。
本稿では,まず,人中心の背景画像に前景オブジェクトを合成する手法であるHOCompを提案する。
提案手法は, MLLMによる領域型ポスガイダンス (MRPG) と, MLLMによるインタラクション領域の識別と, アクションの変動を追跡し, きめ細かなポーズ制約を伴いながら, 生成したポーズに対して粗い制約を付与する, MLLMを用いた領域型ポスガイダンス (MRPG) と, 形状認識型アテンション調整機構, マルチビューの外観損失, 背景の整合性, 背景の再現性を確保するための背景整合性アテンション損失 (DCAP) の2つの主要な設計を含む。
次に、そのタスクのための最初のデータセット、Interaction-Aware Human-Object Composition (IHOC)を提案する。
実験結果から,HOCompは一貫した外観と調和した人間と物体の相互作用を効果的に生成し,関連する手法を質的かつ定量的に上回ることを示す。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Modelling Spatio-Temporal Interactions for Compositional Action
Recognition [21.8767024220287]
人間は、アクションやバックグラウンドに関わるオブジェクトが変更されても、アクションを認識する能力を持っている。
本研究では,インタラクション中心のアプローチが構成的Somes-Elseデータセットに与える影響を示す。
人-物-物間相互作用モデリングのアプローチは,標準的な行動認識データセットにおいても有効である。
論文 参考訳(メタデータ) (2023-05-04T09:37:45Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Effective Actor-centric Human-object Interaction Detection [20.564689533862524]
画像中の人間と物体の相互作用を検出する新しいアクター中心のフレームワークを提案する。
提案手法は,挑戦的なV-COCOとHICO-DETベンチマークの最先端化を実現する。
論文 参考訳(メタデータ) (2022-02-24T10:24:44Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。