論文の概要: VIDMP3: Video Editing by Representing Motion with Pose and Position Priors
- arxiv url: http://arxiv.org/abs/2510.12069v1
- Date: Tue, 14 Oct 2025 02:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.146534
- Title: VIDMP3: Video Editing by Representing Motion with Pose and Position Priors
- Title(参考訳): VIDMP3: ポーズと位置の優先順位による動きの表現によるビデオ編集
- Authors: Sandeep Mishra, Oindrila Saha, Alan C. Bovik,
- Abstract要約: 我々は、ポーズと位置の先行を活かして、ソースビデオから一般化された動き表現を学習する新しいアプローチであるVidMP3を紹介する。
本手法により,構造的・意味的柔軟性を保ちながら,元の動きを維持できる新しい動画を生成することができる。
- 参考スコア(独自算出の注目度): 29.594606956508795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motion-preserved video editing is crucial for creators, particularly in scenarios that demand flexibility in both the structure and semantics of swapped objects. Despite its potential, this area remains underexplored. Existing diffusion-based editing methods excel in structure-preserving tasks, using dense guidance signals to ensure content integrity. While some recent methods attempt to address structure-variable editing, they often suffer from issues such as temporal inconsistency, subject identity drift, and the need for human intervention. To address these challenges, we introduce VidMP3, a novel approach that leverages pose and position priors to learn a generalized motion representation from source videos. Our method enables the generation of new videos that maintain the original motion while allowing for structural and semantic flexibility. Both qualitative and quantitative evaluations demonstrate the superiority of our approach over existing methods. The code will be made publicly available at https://github.com/sandeep-sm/VidMP3.
- Abstract(参考訳): モーション保存ビデオ編集は、特にスワップされたオブジェクトの構造とセマンティクスの両方に柔軟性を必要とするシナリオにおいて、クリエーターにとって不可欠である。
その可能性にもかかわらず、この地域は未探検のままである。
既存の拡散に基づく編集手法は、コンテンツ整合性を確保するために高密度な誘導信号を用いて、構造保存作業に優れる。
最近の手法では、構造変化可能な編集に対処しようとするが、時間的不整合、主観的アイデンティティの漂流、人間の介入の必要性といった問題に悩まされることが多い。
これらの課題に対処するために,ポーズと位置の先行情報を活用する新しいアプローチであるVidMP3を導入し,ソースビデオから一般化された動き表現を学習する。
本手法により,構造的・意味的柔軟性を保ちながら,元の動きを維持できる新しい動画を生成することができる。
定性評価と定量的評価は,既存手法よりもアプローチが優れていることを示すものである。
コードはhttps://github.com/sandeep-sm/VidMP3.comで公開される。
関連論文リスト
- Replace Anyone in Videos [82.37852750357331]
ReplaceAnyoneフレームワークは、複雑な背景を特徴とする、局所的な人間の置換と挿入に焦点を当てたフレームワークである。
我々は,このタスクを,一貫したエンド・ツー・エンドビデオ拡散アーキテクチャを用いて,ポーズガイダンスを用いた画像条件付きビデオ塗装パラダイムとして定式化する。
提案されたReplaceAnyoneは従来の3D-UNetベースモデルだけでなく、Wan2.1のようなDiTベースのビデオモデルにもシームレスに適用できる。
論文 参考訳(メタデータ) (2024-09-30T03:27:33Z) - Blended Latent Diffusion under Attention Control for Real-World Video Editing [5.659933808910005]
本稿では,局所的なビデオ編集作業を行うために,画像レベルのブレンド潜在拡散モデルを適用することを提案する。
具体的には、DDIMのインバージョンを利用して、ランダムにノイズのあるものではなく、背景の潜伏者として潜伏者を取得する。
また,拡散段階におけるクロスアテンションマップから導かれる自律マスク製造機構を導入する。
論文 参考訳(メタデータ) (2024-09-05T13:23:52Z) - DeCo: Decoupled Human-Centered Diffusion Video Editing with Motion Consistency [66.49423641279374]
DeCoは、人間と背景を別々に編集可能なターゲットとして扱うように設計された、新しいビデオ編集フレームワークである。
そこで本研究では,人体を利用した非結合型動的人体表現法を提案する。
本研究は, 通常の空間と画像空間にスコア蒸留サンプリングの計算を拡張し, 最適化時の人間のテクスチャを向上する。
論文 参考訳(メタデータ) (2024-08-14T11:53:40Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing [46.56615725175025]
本稿では,ワンショット微調整による未確認課題に対処するビデオモーション編集手法であるEdit-Your-Motionを紹介する。
映像の動作と外観を効果的に分離するために,時間的二段階学習戦略を設計する。
Edit-Your-Motionを使えば、ユーザーはソースビデオの中の人間の動きを編集でき、より魅力的で多様なコンテンツを作ることができる。
論文 参考訳(メタデータ) (2024-05-07T17:06:59Z) - Drag-A-Video: Non-rigid Video Editing with Point-based Interaction [63.78538355189017]
そこで我々はDrag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散に基づく新しい手法を提案する。
本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。
映像の内容を正確に修正するために,ビデオの機能を更新するために,新しい映像レベルのモーションインスペクタを用いる。
論文 参考訳(メタデータ) (2023-12-05T18:05:59Z) - SAVE: Protagonist Diversification with Structure Agnostic Video Editing [29.693364686494274]
従来の作品は通常、自明で一貫した形状でうまく機能し、元のものと大きく異なる体形を持つ難しいターゲットで容易に崩壊する。
動きのパーソナライズを単一音源映像から分離し,それに応じて動きの調整を行う。
我々はまた、新しい擬似光学フローを導入することにより、動き語を適切な動き関連領域に適応するように調整する。
論文 参考訳(メタデータ) (2023-12-05T05:13:20Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。