論文の概要: Beyond Rigid: Benchmarking Non-Rigid Video Editing
- arxiv url: http://arxiv.org/abs/2601.18340v1
- Date: Mon, 26 Jan 2026 10:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.776261
- Title: Beyond Rigid: Benchmarking Non-Rigid Video Editing
- Title(参考訳): Beyond Rigid:非Rigidビデオ編集のベンチマーク
- Authors: Bingzheng Qu, Kehai Chen, Xuefeng Bai, Jun Yu, Min Zhang,
- Abstract要約: NRVBenchは、非剛性ビデオ編集を評価するために設計された最初のベンチマークである。
まず,6つのカテゴリから180個の非剛体モーションビデオからなる高品質なデータセットをキュレートする。
次に、視覚言語モデルに基づく新しい評価指標NRVE-Accを提案する。
第三に、トレーニング不要のベースラインであるVM-Editを導入し、二重領域記述機構を用いて構造認識制御を実現する。
- 参考スコア(独自算出の注目度): 39.52926053968504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable progress in text-driven video editing, generating coherent non-rigid deformations remains a critical challenge, often plagued by physical distortion and temporal flicker. To bridge this gap, we propose NRVBench, the first dedicated and comprehensive benchmark designed to evaluate non-rigid video editing. First, we curate a high-quality dataset consisting of 180 non-rigid motion videos from six physics-based categories, equipped with 2,340 fine-grained task instructions and 360 multiple-choice questions. Second, we propose NRVE-Acc, a novel evaluation metric based on Vision-Language Models that can rigorously assess physical compliance, temporal consistency, and instruction alignment, overcoming the limitations of general metrics in capturing complex dynamics. Third, we introduce a training-free baseline, VM-Edit, which utilizes a dual-region denoising mechanism to achieve structure-aware control, balancing structural preservation and dynamic deformation. Extensive experiments demonstrate that while current methods have shortcomings in maintaining physical plausibility, our method achieves excellent performance across both standard and proposed metrics. We believe the benchmark could serve as a standard testing platform for advancing physics-aware video editing.
- Abstract(参考訳): テキスト駆動ビデオ編集の顕著な進歩にもかかわらず、コヒーレントな非剛体変形を生成することは、しばしば物理的歪みと時間的フリックによって悩まされる重要な課題である。
このギャップを埋めるために,NRVBenchを提案する。
まず、6つの物理学に基づくカテゴリーから180個の非剛性モーションビデオからなる高品質なデータセットをキュレートし、2,340個のきめ細かいタスク命令と360個の多重選択質問を備える。
第2に,視覚言語モデルに基づく新しい評価指標NRVE-Accを提案し,複雑な力学を捉える際の一般的な指標の限界を克服し,物理的コンプライアンス,時間的一貫性,命令整合性を厳格に評価する。
第3に,2つの領域分割機構を用いて構造認識制御を行い,構造保存と動的変形のバランスをとるトレーニングフリーベースラインVM-Editを導入する。
大規模実験により,本手法は物理的妥当性の維持に欠点があるが,本手法は標準値と提案値の両方で優れた性能を発揮することが示された。
われわれはこのベンチマークが物理を意識したビデオ編集の標準テストプラットフォームになると考えている。
関連論文リスト
- FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing [97.35186681023025]
FFP-300Kは、720p解像度と81フレームの高忠実度ビデオペアの大規模データセットである。
本稿では,第1フレームの外観維持とソース映像の動作保存の緊張を解消する,真の誘導不要なFFPのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-05T01:46:22Z) - Content Adaptive based Motion Alignment Framework for Learned Video Compression [72.13599533975413]
本稿では,コンテンツ適応型モーションアライメントフレームワークを提案する。
まず、粗いオフセット予測とマスク変調により動き補償を洗練させる2段階の流動誘導変形防止機構を導入する。
第2に,基準品質に基づいて歪み重みを調整するマルチ参照品質認識戦略を提案する。
第3に,スムーズな動き推定を得るために,フレームを大きさと解像度でダウンサンプルするトレーニングフリーモジュールを統合する。
論文 参考訳(メタデータ) (2025-12-15T02:51:47Z) - ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning [57.08352504712699]
ビデオ統合モデルは、理解と生成において強力な能力を示すが、理性に富んだビジュアル編集に苦慮している。
本稿では,Reason-Informed Video Editing (RVE)タスクを紹介する。
一つのアーキテクチャ内で生成と評価を統一するフレームワークであるReViSEを提案する。
論文 参考訳(メタデータ) (2025-12-10T18:57:09Z) - FreqEdit: Preserving High-Frequency Features for Robust Multi-Turn Image Editing [23.172235115031018]
トレーニング不要のフレームワークであるFreqEditを10回以上連続する安定した編集を可能にする。
提案手法は,(1) 基準速度場からの高頻度特徴注入による細部情報保存,(2) 正確な領域特異的制御のために注入強度を空間的に調節する適応注入戦略,(3) 編集軌道を周期的に補正して過度制約を防ぐ経路補償機構の3つの相乗的成分からなる。
論文 参考訳(メタデータ) (2025-12-01T15:00:47Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - VideoScore2: Think before You Score in Generative Video Evaluation [69.43069741467603]
VideoScore2は、視覚的品質、テキスト・ツー・ビデオのアライメント、物理的/常識的一貫性を明確に評価する多次元、解釈可能、そして人間によるアライメントフレームワークである。
我々のモデルは、27,168人の注釈付きビデオを含む大規模なデータセットVideoFeedback2で訓練されている。
論文 参考訳(メタデータ) (2025-09-26T18:09:03Z) - Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。
既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。
自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:31:17Z) - DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models [1.972901110298768]
高品質で費用対効果の高い2段階パラメーター効率なビデオ編集のための微調整フレームワークであるDAPEを提案する。
最初の段階では、生成したビデオの時間的一貫性を高めるための効率的なノルムチューニング法を設計する。
第2ステージでは視覚的品質を改善するための視覚フレンドリなアダプタが導入されている。
論文 参考訳(メタデータ) (2025-05-11T17:08:50Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。