論文の概要: Beyond Rigid: Benchmarking Non-Rigid Video Editing
- arxiv url: http://arxiv.org/abs/2601.18340v1
- Date: Mon, 26 Jan 2026 10:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.776261
- Title: Beyond Rigid: Benchmarking Non-Rigid Video Editing
- Title(参考訳): Beyond Rigid:非Rigidビデオ編集のベンチマーク
- Authors: Bingzheng Qu, Kehai Chen, Xuefeng Bai, Jun Yu, Min Zhang,
- Abstract要約: NRVBenchは、非剛性ビデオ編集を評価するために設計された最初のベンチマークである。
まず,6つのカテゴリから180個の非剛体モーションビデオからなる高品質なデータセットをキュレートする。
次に、視覚言語モデルに基づく新しい評価指標NRVE-Accを提案する。
第三に、トレーニング不要のベースラインであるVM-Editを導入し、二重領域記述機構を用いて構造認識制御を実現する。
- 参考スコア(独自算出の注目度): 39.52926053968504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable progress in text-driven video editing, generating coherent non-rigid deformations remains a critical challenge, often plagued by physical distortion and temporal flicker. To bridge this gap, we propose NRVBench, the first dedicated and comprehensive benchmark designed to evaluate non-rigid video editing. First, we curate a high-quality dataset consisting of 180 non-rigid motion videos from six physics-based categories, equipped with 2,340 fine-grained task instructions and 360 multiple-choice questions. Second, we propose NRVE-Acc, a novel evaluation metric based on Vision-Language Models that can rigorously assess physical compliance, temporal consistency, and instruction alignment, overcoming the limitations of general metrics in capturing complex dynamics. Third, we introduce a training-free baseline, VM-Edit, which utilizes a dual-region denoising mechanism to achieve structure-aware control, balancing structural preservation and dynamic deformation. Extensive experiments demonstrate that while current methods have shortcomings in maintaining physical plausibility, our method achieves excellent performance across both standard and proposed metrics. We believe the benchmark could serve as a standard testing platform for advancing physics-aware video editing.
- Abstract(参考訳): テキスト駆動ビデオ編集の顕著な進歩にもかかわらず、コヒーレントな非剛体変形を生成することは、しばしば物理的歪みと時間的フリックによって悩まされる重要な課題である。
このギャップを埋めるために,NRVBenchを提案する。
まず、6つの物理学に基づくカテゴリーから180個の非剛性モーションビデオからなる高品質なデータセットをキュレートし、2,340個のきめ細かいタスク命令と360個の多重選択質問を備える。
第2に,視覚言語モデルに基づく新しい評価指標NRVE-Accを提案し,複雑な力学を捉える際の一般的な指標の限界を克服し,物理的コンプライアンス,時間的一貫性,命令整合性を厳格に評価する。
第3に,2つの領域分割機構を用いて構造認識制御を行い,構造保存と動的変形のバランスをとるトレーニングフリーベースラインVM-Editを導入する。
大規模実験により,本手法は物理的妥当性の維持に欠点があるが,本手法は標準値と提案値の両方で優れた性能を発揮することが示された。
われわれはこのベンチマークが物理を意識したビデオ編集の標準テストプラットフォームになると考えている。
関連論文リスト
- FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing [97.35186681023025]
FFP-300Kは、720p解像度と81フレームの高忠実度ビデオペアの大規模データセットである。
本稿では,第1フレームの外観維持とソース映像の動作保存の緊張を解消する,真の誘導不要なFFPのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-05T01:46:22Z) - ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning [57.08352504712699]
ビデオ統合モデルは、理解と生成において強力な能力を示すが、理性に富んだビジュアル編集に苦慮している。
本稿では,Reason-Informed Video Editing (RVE)タスクを紹介する。
一つのアーキテクチャ内で生成と評価を統一するフレームワークであるReViSEを提案する。
論文 参考訳(メタデータ) (2025-12-10T18:57:09Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。
既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。
自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:31:17Z) - DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models [1.972901110298768]
高品質で費用対効果の高い2段階パラメーター効率なビデオ編集のための微調整フレームワークであるDAPEを提案する。
最初の段階では、生成したビデオの時間的一貫性を高めるための効率的なノルムチューニング法を設計する。
第2ステージでは視覚的品質を改善するための視覚フレンドリなアダプタが導入されている。
論文 参考訳(メタデータ) (2025-05-11T17:08:50Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。