論文の概要: NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors
- arxiv url: http://arxiv.org/abs/2504.11427v1
- Date: Tue, 15 Apr 2025 17:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:32.143772
- Title: NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors
- Title(参考訳): 普通の職人:ビデオ拡散の先駆者から一時的に一貫性のある師を学習する
- Authors: Yanrui Bin, Wenbo Hu, Haoyuan Wang, Xinya Chen, Bing Wang,
- Abstract要約: ビデオ拡散モデルの本質的な時間的先行性を活用するために,NormalCrafterを提案する。
シーケンス間の高忠実度正規推定を実現するために,セマンティック特徴正規化を提案する。
また,長時間の時間的文脈を維持しながら空間的精度を維持するための2段階トレーニングプロトコルも導入した。
- 参考スコア(独自算出の注目度): 6.7253553166914255
- License:
- Abstract: Surface normal estimation serves as a cornerstone for a spectrum of computer vision applications. While numerous efforts have been devoted to static image scenarios, ensuring temporal coherence in video-based normal estimation remains a formidable challenge. Instead of merely augmenting existing methods with temporal components, we present NormalCrafter to leverage the inherent temporal priors of video diffusion models. To secure high-fidelity normal estimation across sequences, we propose Semantic Feature Regularization (SFR), which aligns diffusion features with semantic cues, encouraging the model to concentrate on the intrinsic semantics of the scene. Moreover, we introduce a two-stage training protocol that leverages both latent and pixel space learning to preserve spatial accuracy while maintaining long temporal context. Extensive evaluations demonstrate the efficacy of our method, showcasing a superior performance in generating temporally consistent normal sequences with intricate details from diverse videos.
- Abstract(参考訳): 表面正規推定は、コンピュータビジョン応用の基盤となる。
静的画像のシナリオに多くの努力が注がれているが、ビデオベースの正規推定における時間的コヒーレンスを保証することは、依然として困難な課題である。
既存のメソッドを時間的成分で拡張するのではなく,ビデオ拡散モデルの本質的な時間的先行性を活用するために,NormalCrafterを提案する。
そこで本研究では,拡散特徴を意味的手がかりと整合させるセマンティック特徴正規化(SFR)を提案する。
さらに、潜時空間学習と画素空間学習を併用した2段階トレーニングプロトコルを導入し、長期の時間的文脈を維持しながら空間的精度を維持する。
本手法の有効性を概説し,多種多様なビデオからの複雑な細部を含む時間的に一貫した正常なシーケンスを生成する上で,優れた性能を示す。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Learning Natural Consistency Representation for Face Forgery Video Detection [23.53549629885891]
本研究では,自然表現(NACO)の実写映像を自己監督的に学習することを提案する。
我々の手法は、他の最先端の手法よりも優れたロバスト性を持つ。
論文 参考訳(メタデータ) (2024-07-15T09:00:02Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - Latent Spatiotemporal Adaptation for Generalized Face Forgery Video Detection [22.536129731902783]
顔画像の一般的な検出を容易にするためのLatemporal Spatio(LAST)アプローチを提案する。
まず、各フレームの局所的な空間的特徴を抽出するために、軽量CNNを組み込むことで、ビデオの時間的パターンをモデル化する。
次に、静止空間ビデオの長期的表現を学習し、画素空間よりも多くの手がかりを含むべきである。
論文 参考訳(メタデータ) (2023-09-09T13:40:44Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Exploiting Spatial-temporal Correlations for Video Anomaly Detection [7.336831373786849]
ビデオ異常検出(VAD)は、異常事象のあいまいさと多様性のため、パターン認識コミュニティにおいて難しい課題である。
本稿では,ST-LSTMを用いて逆学習を行うための識別器を導入し,学習能力を向上させる。
本手法は, UCSD2, CUHKアベニュー, 上海テックにおいて, AUCの96.7%, 87.8%, 73.1%の最先端手法と比較して, 競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-02T02:13:24Z) - Spatio-temporal predictive tasks for abnormal event detection in videos [60.02503434201552]
オブジェクトレベルの正規化パターンを学習するための制約付きプレテキストタスクを提案する。
我々のアプローチは、ダウンスケールの視覚的クエリとそれに対応する正常な外観と運動特性のマッピングを学習することである。
いくつかのベンチマークデータセットの実験では、異常の局所化と追跡のためのアプローチの有効性が示されている。
論文 参考訳(メタデータ) (2022-10-27T19:45:12Z) - Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in
the Wild [19.5702895176141]
本稿では,各フレームモデル内の異種特徴を抽出する手法を提案する。
我々はCNNを用いて各フレームを視覚的特徴系列に変換する。
実験の結果,本手法は空間的および時間的依存を効果的に活用できることが示された。
論文 参考訳(メタデータ) (2022-05-10T08:47:15Z) - Exploring Temporal Coherence for More General Video Face Forgery
Detection [22.003901822221227]
本稿では,2つの主要な段階からなる新しいエンドツーエンドフレームワークを提案する。
第1段階は、時間的畳み込みネットワーク(FTCN)であり、時間的畳み込みカーネルのサイズは変化しない。
第2段階はテンポラルトランスフォーマーネットワークであり、長期の時間的コヒーレンスを探求することを目的としている。
論文 参考訳(メタデータ) (2021-08-15T08:45:37Z) - CaSPR: Learning Canonical Spatiotemporal Point Cloud Representations [72.4716073597902]
本研究では,動的あるいは動いた物体の標準点クラウド表現を学習する手法を提案する。
本稿では, 形状再構成, カメラポーズ推定, 連続時間列再構成, 対応推定など, 様々な応用における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-08-06T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。