論文の概要: Beyond the Visible: Disocclusion-Aware Editing via Proxy Dynamic Graphs
- arxiv url: http://arxiv.org/abs/2512.13392v1
- Date: Mon, 15 Dec 2025 14:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.702735
- Title: Beyond the Visible: Disocclusion-Aware Editing via Proxy Dynamic Graphs
- Title(参考訳): Beyond the Visible: Proxy Dynamic Graphsによる排他的認識編集
- Authors: Anran Qi, Changjian Li, Adrien Bousseau, Niloy J. Mitra,
- Abstract要約: 最終フレームの非排除領域に対する明示的なユーザ制御による画像から映像への生成に対処する。
本研究では,部分運動を駆動する軽量でユーザ編集可能なプロキシダイナミックグラフ(PDG)を導入し,その動きに追従する可塑性な外観を合成するために凍結拡散前処理を用いる。
次に,画像の隠蔽領域の外観をユーザが編集し,PDGが符号化した可視性情報を利用して,これらの領域におけるユーザ意図との動きを一致させる潜時空間合成を行う。
- 参考スコア(独自算出の注目度): 39.496648478488666
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We address image-to-video generation with explicit user control over the final frame's disoccluded regions. Current image-to-video pipelines produce plausible motion but struggle to generate predictable, articulated motions while enforcing user-specified content in newly revealed areas. Our key idea is to separate motion specification from appearance synthesis: we introduce a lightweight, user-editable Proxy Dynamic Graph (PDG) that deterministically yet approximately drives part motion, while a frozen diffusion prior is used to synthesize plausible appearance that follows that motion. In our training-free pipeline, the user loosely annotates and reposes a PDG, from which we compute a dense motion flow to leverage diffusion as a motion-guided shader. We then let the user edit appearance in the disoccluded areas of the image, and exploit the visibility information encoded by the PDG to perform a latent-space composite that reconciles motion with user intent in these areas. This design yields controllable articulation and user control over disocclusions without fine-tuning. We demonstrate clear advantages against state-of-the-art alternatives towards images turned into short videos of articulated objects, furniture, vehicles, and deformables. Our method mixes generative control, in the form of loose pose and structure, with predictable controls, in the form of appearance specification in the final frame in the disoccluded regions, unlocking a new image-to-video workflow. Code will be released on acceptance. Project page: https://anranqi.github.io/beyondvisible.github.io/
- Abstract(参考訳): 最終フレームの非排除領域に対する明示的なユーザ制御による画像から映像への生成に対処する。
現在のイメージ・トゥ・ビデオパイプラインは、プラウザブルな動きを生成するが、新しく公開された領域でユーザーが特定したコンテンツを強制しながら予測可能な、明瞭な動きを生成するのに苦労している。
我々のキーとなる考え方は、動作仕様と外観合成を分離することである。我々は、決定論的に概ね部分運動を駆動する軽量でユーザ編集可能なプロキシダイナミックグラフ(PDG)を導入し、凍結拡散前は、その動きに続く可塑性な外観を合成するために使用される。
トレーニング不要のパイプラインでは、ユーザはPDGを緩やかに注釈し、再生し、そこから密度の高い動きの流れを計算し、拡散を移動誘導シェーダとして活用する。
次に,画像の隠蔽領域の外観をユーザが編集し,PDGが符号化した可視性情報を利用して,これらの領域におけるユーザ意図との動きを一致させる潜時空間合成を行う。
この設計は、微調整をすることなく、制御可能な調音と非閉塞性に対するユーザ制御を与える。
画像に対する最先端の代替手段に対する明確なアドバンテージは、音声化された物体、家具、車両、変形可能な物体のショートビデオに変換される。
提案手法は,ゆるやかなポーズや構造,予測可能な制御といった生成的制御を,排除された領域の最終フレームの外観仕様の形で混合し,新しい画像と映像のワークフローをアンロックする。
コードは受理時にリリースされる。
プロジェクトページ:https://anranqi.github.io/beyondvisible.github.io/
関連論文リスト
- Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising [23.044483059783143]
拡散に基づくビデオ生成はリアルなビデオを生成することができるが、既存の画像やテキストベースの条件付けでは正確なモーションコントロールが得られない。
我々は、モーションおよび外観制御ビデオ生成のためのトレーニング不要なプラグイン・アンド・プレイフレームワークであるTime-to-Move (TTM)を紹介した。
論文 参考訳(メタデータ) (2025-11-09T22:47:50Z) - Vectorized Video Representation with Easy Editing via Hierarchical Spatio-Temporally Consistent Proxy Embedding [45.593989778240655]
提案した表現はより少ないパラメータで高い映像再構成精度を実現する。
複雑なビデオ処理タスクをサポートし、ビデオのインペイントや時間的に一貫したビデオ編集を行う。
論文 参考訳(メタデータ) (2025-10-14T08:05:30Z) - Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime! [88.12304235156591]
textbfstReaming drag-oriEnted interactiVe vidEo manipulation (REVEL)を提案する。
提案手法は,既存の自己回帰ビデオ拡散モデルにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-10-03T22:38:35Z) - Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video [38.71994714429696]
本稿では,動画データを動的モーションと静的コンテンツコンポーネントにアンタングルする,新しい汎用フレームワークを提案する。
提案手法は,従来よりも仮定や帰納バイアスの少ない自己教師型パイプラインである。
実世界の対話型ヘッドビデオにおける非交互表現学習フレームワークの動作伝達と自動回帰動作生成タスクの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-10T08:14:45Z) - FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。
軽量のスパース制御エンコーダのみを使用して編集信号を注入する。
従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文 参考訳(メタデータ) (2025-01-14T16:09:16Z) - Replace Anyone in Videos [82.37852750357331]
ReplaceAnyoneフレームワークは、複雑な背景を特徴とする、局所的な人間の置換と挿入に焦点を当てたフレームワークである。
我々は,このタスクを,一貫したエンド・ツー・エンドビデオ拡散アーキテクチャを用いて,ポーズガイダンスを用いた画像条件付きビデオ塗装パラダイムとして定式化する。
提案されたReplaceAnyoneは従来の3D-UNetベースモデルだけでなく、Wan2.1のようなDiTベースのビデオモデルにもシームレスに適用できる。
論文 参考訳(メタデータ) (2024-09-30T03:27:33Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Treating Motion as Option with Output Selection for Unsupervised Video Object Segmentation [16.37741705985433]
本稿では,移動キューを必要ではなくオプションコンポーネントとして扱う,新たなモーション・アズ・オプション・ネットワークを提案する。
トレーニング中、光学フローマップの代わりにRGB画像をランダムにモーションエンコーダに入力し、ネットワークのモーションキューへの依存を暗黙的に低減する。
この設計により、モーションエンコーダはRGB画像と光フローマップの両方を処理可能であることを保証する。
論文 参考訳(メタデータ) (2023-09-26T09:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。