論文の概要: Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements
- arxiv url: http://arxiv.org/abs/2312.07835v1
- Date: Wed, 13 Dec 2023 01:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-14 16:56:14.987128
- Title: Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements
- Title(参考訳): video dynamics prior:ロバストなビデオ拡張のための内部学習アプローチ
- Authors: Gaurav Shrivastava, Ser-Nam Lim, Abhinav Shrivastava
- Abstract要約: 外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
- 参考スコア(独自算出の注目度): 83.5820690348833
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present a novel robust framework for low-level vision
tasks, including denoising, object removal, frame interpolation, and
super-resolution, that does not require any external training data corpus. Our
proposed approach directly learns the weights of neural modules by optimizing
over the corrupted test sequence, leveraging the spatio-temporal coherence and
internal statistics of videos. Furthermore, we introduce a novel spatial
pyramid loss that leverages the property of spatio-temporal patch recurrence in
a video across the different scales of the video. This loss enhances robustness
to unstructured noise in both the spatial and temporal domains. This further
results in our framework being highly robust to degradation in input frames and
yields state-of-the-art results on downstream tasks such as denoising, object
removal, and frame interpolation. To validate the effectiveness of our
approach, we conduct qualitative and quantitative evaluations on standard video
datasets such as DAVIS, UCF-101, and VIMEO90K-T.
- Abstract(参考訳): 本稿では,外部トレーニングデータコーパスを必要とせず,ノイズ除去,オブジェクト除去,フレーム補間,スーパーレゾリューションといった低レベル視覚タスクのための新しいロバストなフレームワークを提案する。
提案手法は,映像の時空間的コヒーレンスと内部統計を利用して,劣化したテストシーケンスを最適化することで,神経モジュールの重みを直接学習する。
さらに,映像の異なるスケールにおける時空間的パッチ再帰の特性を生かした新たな空間的ピラミッド損失について紹介する。
この損失は、空間領域と時間領域の両方において非構造ノイズに対するロバスト性を高める。
さらに,本フレームワークは入力フレームの劣化に対して極めて堅牢であり,デノナイズやオブジェクト除去,フレーム補間といった下流タスクにおける最先端の結果が得られる。
提案手法の有効性を検証するため, DAVIS, UCF-101, VIMEO90K-Tなどの標準ビデオデータセットの質的,定量的評価を行った。
関連論文リスト
- StableDPT: Temporal Stable Monocular Video Depth Estimation [14.453483279783908]
本稿では,最新の画像ベース(深度)推定モデルをビデオ処理に適用する手法を提案する。
我々のアーキテクチャは、市販のViTエンコーダ上に構築され、Dense Prediction Transformer (DPT) ヘッドが強化されている。
複数のベンチマークデータセットに対する評価では、リアルタイムシナリオにおける時間的一貫性の向上、最先端のパフォーマンスの競争力、および上位2倍高速な処理が示されている。
論文 参考訳(メタデータ) (2026-01-06T08:02:14Z) - An Efficient Quality Metric for Video Frame Interpolation Based on Motion-Field Divergence [0.3823356975862005]
ビデオフレームは時間的ビデオ強調の基本的なツールであるが、既存の品質指標は、人工物の影響を効果的に評価するのに苦労している。
動きの発散重み付けによりPSNRを強化する新しい完全参照品質指標であるtextPSNR_textDIV$を提示する。
提案手法では,画像誤差の重み付けに使用される運動場の特異点に着目した。
論文 参考訳(メタデータ) (2025-10-01T18:40:38Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Deep Video Matting via Spatio-Temporal Alignment and Aggregation [63.6870051909004]
新たな集計機能モジュール(STFAM)を用いた深層学習型ビデオマッチングフレームワークを提案する。
フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。
私達のフレームワークは従来のビデオ マットおよび深いイメージのマットの方法よりかなり優秀です。
論文 参考訳(メタデータ) (2021-04-22T17:42:08Z) - Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features [7.895528973776606]
本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
FCDNetは連続するフレームのスタックを入力として使用し、ネットワークブロックを使ってアーティファクトを効果的に学習して特徴を学習する。
論文 参考訳(メタデータ) (2021-03-25T08:47:46Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。