Fugu-MT 論文翻訳(概要): Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model

論文の概要: Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model

arxiv url: http://arxiv.org/abs/2503.16942v2
Date: Mon, 24 Mar 2025 14:18:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 14:21:41.346954
Title: Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model
Title（参考訳）: Re-HOLD:適応レイアウト指示拡散モデルによるビデオハンドオブジェクトインタラクションの再現
Authors: Yingying Fan, Quanwei Yang, Kaisiyuan Wang, Hang Zhou, Yingying Li, Haocheng Feng, Errui Ding, Yu Wu, Jingdong Wang,
Abstract要約: 本稿では,適応的レイアウト指示拡散モデル(Re-HOLD)によるヒューマンオブジェクトインタラクション(HOI)に着目した新しいビデオ再現フレームワークを提案する。私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。 HOIの生成品質をさらに向上するため,手と物体の対話型音質向上モジュールを設計した。
参考スコア（独自算出の注目度）: 72.90370736032115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current digital human studies focusing on lip-syncing and body movement are no longer sufficient to meet the growing industrial demand, while human video generation techniques that support interacting with real-world environments (e.g., objects) have not been well investigated. Despite human hand synthesis already being an intricate problem, generating objects in contact with hands and their interactions presents an even more challenging task, especially when the objects exhibit obvious variations in size and shape. To cope with these issues, we present a novel video Reenactment framework focusing on Human-Object Interaction (HOI) via an adaptive Layout-instructed Diffusion model (Re-HOLD). Our key insight is to employ specialized layout representation for hands and objects, respectively. Such representations enable effective disentanglement of hand modeling and object adaptation to diverse motion sequences. To further improve the generation quality of HOI, we have designed an interactive textural enhancement module for both hands and objects by introducing two independent memory banks. We also propose a layout-adjusting strategy for the cross-object reenactment scenario to adaptively adjust unreasonable layouts caused by diverse object sizes during inference. Comprehensive qualitative and quantitative evaluations demonstrate that our proposed framework significantly outperforms existing methods. Project page: https://fyycs.github.io/Re-HOLD.
Abstract（参考訳）: リップシンキングと身体運動に焦点をあてた現在のデジタルヒューマンスタディは、産業需要の増加に対応するには十分ではなく、現実世界の環境(例えば物体)との相互作用を支援するヒューマンビデオ生成技術は、十分に研究されていない。人間の手合成は複雑な問題だが、手と対話する物体を生成することは、特に物体のサイズや形状が明らかに異なる場合、さらに難しい課題となる。これらの問題に対処するために,適応型レイアウト命令拡散モデル(Re-HOLD)を用いて,人間-物体相互作用(HOI)に焦点を当てた新しいビデオ再現フレームワークを提案する。私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。このような表現は、ハンドモデリングと多様な動き列へのオブジェクト適応を効果的に切り離すことができる。 HOIの生成品質をさらに向上するため,2つの独立したメモリバンクを導入し,手とオブジェクトの対話型音声強調モジュールを設計した。また,多種多様なオブジェクトサイズに起因する不合理なレイアウトを適応的に調整するクロスオブジェクト再現シナリオのレイアウト調整戦略を提案する。包括的質的・定量的評価は,提案手法が既存手法よりも優れていることを示す。プロジェクトページ: https://fyycs.github.io/Re-HOLD

関連論文リスト

iDiT-HOI: Inpainting-based Hand Object Interaction Reenactment via Video Diffusion Transformer [43.58952721477297]
そこで本論文では,新たなフレームワークであるiDiT-HOIについて述べる。具体的には,2段階ビデオ拡散変換器(DiT)モデルを用いて,Inp-TPUと呼ばれる一体化インペイントベースのトークン処理手法を提案する。
論文参考訳（メタデータ） (2025-06-15T13:41:43Z)
ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文参考訳（メタデータ） (2025-03-11T04:42:59Z)
Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文参考訳（メタデータ） (2024-12-03T17:44:23Z)
EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。最初の再構築では、事前に誘導された最適化方式を採用する。
論文参考訳（メタデータ） (2024-11-21T16:33:35Z)
Novel-view Synthesis and Pose Estimation for Hand-Object Interaction from Sparse Views [41.50710846018882]
スパースビューから手動物体間相互作用を推定するニューラルレンダリングとポーズ推定システムを提案する。まず,手や物体の形状や外観を,神経表現と別々に学習する。オンライン段階では、動的手-物体相互作用を理解するためのレンダリングベースのジョイントモデルフィッティングフレームワークを設計する。
論文参考訳（メタデータ） (2023-08-22T05:17:41Z)
HMDO: Markerless Multi-view Hand Manipulation Capture with Deformable Objects [8.711239906965893]
HMDOは、手と変形可能な物体の対話的な動きを記録する最初のマーカーレス変形可能な相互作用データセットである。提案手法は,手と変形可能な物体の対話的動きを高品質に再現することができる。
論文参考訳（メタデータ） (2023-01-18T16:55:15Z)
Hand-Object Interaction Image Generation [135.87707468156057]
この仕事は、新しいタスク、すなわち手動オブジェクトのインタラクション画像生成に特化している。与えられた手、オブジェクト、それらの相互作用状態の下で、条件付きハンドオブジェクト画像を生成することを目的としている。このタスクは、AR/VRゲームやオンラインショッピングなど、多くの潜在的なアプリケーションシナリオにおいて、挑戦的で研究に値するものだ。
論文参考訳（メタデータ） (2022-11-28T18:59:57Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。