論文の概要: HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness
- arxiv url: http://arxiv.org/abs/2406.07754v1
- Date: Tue, 11 Jun 2024 22:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 20:56:21.821496
- Title: HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness
- Title(参考訳): HOI-Swap:手動インタラクションを意識したビデオにおけるオブジェクトのスワップ
- Authors: Zihui Xue, Mi Luo, Changan Chen, Kristen Grauman,
- Abstract要約: 本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
- 参考スコア(独自算出の注目度): 57.18183962641015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of precisely swapping objects in videos, with a focus on those interacted with by hands, given one user-provided reference object image. Despite the great advancements that diffusion models have made in video editing recently, these models often fall short in handling the intricacies of hand-object interactions (HOI), failing to produce realistic edits -- especially when object swapping results in object shape or functionality changes. To bridge this gap, we present HOI-Swap, a novel diffusion-based video editing framework trained in a self-supervised manner. Designed in two stages, the first stage focuses on object swapping in a single frame with HOI awareness; the model learns to adjust the interaction patterns, such as the hand grasp, based on changes in the object's properties. The second stage extends the single-frame edit across the entire sequence; we achieve controllable motion alignment with the original video by: (1) warping a new sequence from the stage-I edited frame based on sampled motion points and (2) conditioning video generation on the warped sequence. Comprehensive qualitative and quantitative evaluations demonstrate that HOI-Swap significantly outperforms existing methods, delivering high-quality video edits with realistic HOIs.
- Abstract(参考訳): ユーザが提供する参照オブジェクト画像から,手動で対話するオブジェクトに焦点をあてて,ビデオ内のオブジェクトを正確に交換する問題について検討する。
最近のビデオ編集における拡散モデルの大きな進歩にもかかわらず、これらのモデルは手動オブジェクトの相互作用(HOI)の複雑さを扱うのに不足することが多く、特にオブジェクトの交換がオブジェクトの形や機能の変化をもたらすと、現実的な編集が得られない。
このギャップを埋めるために, HOI-Swapを提案する。
モデルでは、オブジェクトの特性の変化に基づいて、手つかみなどのインタラクションパターンを調整することを学ぶ。
第2段階は, 単一フレーム編集を全シーケンスにわたって拡張し, 1) サンプリングされた動き点に基づいて, 1) 編集されたフレームから新しいシーケンスをワープし, (2) ワープされた動画生成を行うことにより, 元のビデオと制御可能な動きアライメントを実現する。
包括的質的,定量的評価により,HOI-Swapは既存の手法よりも優れ,リアルなHOIで高品質な映像編集を実現することが示された。
関連論文リスト
- Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing [46.56615725175025]
そこで本研究では,テキストとビデオのペアを1つだけ必要とするような編集-Your-Motionというワンショットビデオ編集手法を提案する。
具体的には、時空間拡散モデルにおける運動時間的特徴を分離するために、詳細なPromptGuided Learning Strategyを設計する。
Edit-Your-Motionを使えば、ユーザーはソースビデオの中のオブジェクトの動きを編集して、よりエキサイティングで多様なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-05-07T17:06:59Z) - GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。
提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文 参考訳(メタデータ) (2024-04-18T23:25:27Z) - Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models [52.28245595257831]
クロスアテンションガイダンスは、ビデオを編集する上で有望なアプローチだ。
現行のT2Vモデルの限界にもかかわらず、動画編集にはクロスアテンションガイダンスが有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-04-08T13:40:01Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - VideoSwap: Customized Video Subject Swapping with Interactive Semantic
Point Correspondence [37.85691662157054]
密度の高い対応に依存するビデオ編集アプローチは、ターゲット編集が形状変化を伴う場合、効果がない。
我々は,対象者の運動軌跡を調整し,その形状を変更するために,少数の意味点しか必要としないという観察から着想を得た VideoSwap フレームワークを紹介した。
大規模な実験では、さまざまな現実世界のビデオで結果を交換する最先端のビデオ被験者がデモされている。
論文 参考訳(メタデータ) (2023-12-04T17:58:06Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。