Fugu-MT 論文翻訳(概要): Occlusion-Aware Physics-Semantic Keyframe Selection for Robust Video Editing

論文の概要: Occlusion-Aware Physics-Semantic Keyframe Selection for Robust Video Editing

arxiv url: http://arxiv.org/abs/2605.23192v2
Date: Wed, 27 May 2026 07:47:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:54.883389
Title: Occlusion-Aware Physics-Semantic Keyframe Selection for Robust Video Editing
Title（参考訳）: ロバストビデオ編集のためのオクルージョン対応物理セマンティックキーフレーム選択
Authors: Lin Liu, Zhihan Xiao, Haohang Xu, Rong Cong, Zhibo Zhang, Xiaopeng Zhang, Qi Tian,
Abstract要約: 下流編集のための最適なアンカーフレームを自動的に識別するオクルージョン対応選択フレームワークを提案する。我々のフレームワークは、手動のアノテーションを必要とせずに、正確かつ時間的に一貫した編集を可能にする。
参考スコア（独自算出の注目度）: 53.06890499054828
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video editing has recently achieved remarkable progress with diffusion-based generative models, enabling diverse object-level manipulations from natural language instructions. However, existing methods often struggle under occlusion, viewpoint changes, and fast object motion, where unreliable visual observations lead to inaccurate localization, temporal flickering, and inconsistent edits. In this work, we identify the absence of reliable visual anchors as a fundamental bottleneck in occlusion-robust video editing. To address this issue, we propose an occlusion-aware physics-semantic keyframe selection framework that automatically identifies an optimal anchor frame for downstream editing. Specifically, our method evaluates candidate frames from three complementary perspectives: structural completeness for avoiding truncated observations, cycle-consistent tracking stability for measuring physical reliability, and vision-language-based attribute visibility for ensuring semantic clarity. The selected keyframe is then propagated through bidirectional tracking to generate dense spatiotemporal masks, which are used as auxiliary supervision for a diffusion-based video editing backbone. By transforming occlusion handling from explicit reconstruction into reliable anchor selection, our framework enables precise and temporally consistent editing without requiring manual annotations. Extensive experiments on challenging video editing benchmarks demonstrate the effectiveness and high-quality performance of our method.
Abstract（参考訳）: ビデオ編集は拡散に基づく生成モデルによって目覚ましい進歩を遂げており、自然言語命令からの多様なオブジェクトレベルの操作を可能にしている。しかし、既存の手法は、信頼できない視覚的観察が不正確な位置化、時間的ひねり、一貫性のない編集につながるような、隠蔽、視点の変化、高速な物体の動きに苦しむことが多い。本研究では,オクルージョン・ロバスト映像編集における基本的なボトルネックとして,信頼度の高い視覚アンカーが欠如していることを明らかにする。この問題に対処するために、下流編集のための最適なアンカーフレームを自動的に識別するオクルージョン対応物理シーマンティックキーフレーム選択フレームワークを提案する。具体的には,3つの相補的な視点から,不規則な観測を避けるための構造的完全性,物理的信頼性を測定するためのサイクル整合性トラッキング安定性,意味的明確性を確保するための視覚言語に基づく属性可視性,の3点について評価する。選択されたキーフレームは双方向追跡によって伝播し、拡散ベースのビデオ編集バックボーンの補助監督として使用される濃密な時空間マスクを生成する。本フレームワークは,オクルージョン処理を明示的な再構成から信頼性の高いアンカー選択に変換することにより,手作業によるアノテーションを必要とせずに,正確かつ時間的に一貫した編集を可能にする。本手法の有効性と高性能性を示すため,ビデオ編集ベンチマークによる大規模な実験を行った。

関連論文リスト

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing [7.08737643046839]
FlowAnchorは、安定的で効率的なインバージョンフリーなフローベースのビデオ編集のためのトレーニング不要のフレームワークである。編集の場所と、高次元ビデオラテント空間での編集の強さの両方をアンカーする。より忠実で、時間的コヒーレントで、計算的に効率的なビデオ編集を実現し、挑戦的なマルチオブジェクトと高速モーションのシナリオにまたがる。
論文参考訳（メタデータ） (2026-04-24T14:17:11Z)
SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing [76.349958946335]
本稿では,映像編集をセマンティックアンカーとモーションモデリングに分解するフレームワークであるSAMA(factorized Semantic Anchoring and Motion Alignment)を提案する。まずセマンティックアンカリング(Semantic Anchoring)を導入し、スパースアンカフレームでのセマンティックトークンとビデオ潜在者を共同で予測することで、信頼性の高い視覚アンカを確立する。第2に、モーションアライメントは同じバックボーンをモーション中心のビデオ復元のプリテキストタスクで事前トレーニングする。
論文参考訳（メタデータ） (2026-03-19T17:59:51Z)
Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文参考訳（メタデータ） (2025-12-03T15:51:11Z)
VALA: Learning Latent Anchors for Training-Free and Temporally Consistent [29.516179213427694]
本稿では,キーフレームを適応的に選択し,その潜在機能をセマンティックアンカーに圧縮し,一貫したビデオ編集を行う変分アライメントモジュールであるVALAを提案する。本手法はトレーニング不要なテキスト・画像ベースのビデオ編集モデルに完全に統合することができる。
論文参考訳（メタデータ） (2025-10-27T03:44:11Z)
Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文参考訳（メタデータ） (2025-06-01T13:28:04Z)
SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations [12.139451002212063]
SSVODはビデオのモーションダイナミクスを利用して、スパースアノテーション付き大規模未ラベルフレームを利用する。提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISの既存手法に比べて,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2023-09-04T06:41:33Z)
RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文参考訳（メタデータ） (2023-08-11T12:17:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。