論文の概要: Instant Video Models: Universal Adapters for Stabilizing Image-Based Networks
- arxiv url: http://arxiv.org/abs/2512.03014v1
- Date: Tue, 02 Dec 2025 18:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.008156
- Title: Instant Video Models: Universal Adapters for Stabilizing Image-Based Networks
- Title(参考訳): インスタントビデオモデル:画像ベースネットワークの安定化のためのユニバーサルアダプタ
- Authors: Matthew Dutson, Nathan Labiosa, Yin Li, Mohit Gupta,
- Abstract要約: ビデオ上での安定かつロバストな推論にフレームベースモデルを適用するための一般的なアプローチを提案する。
仮想的なアーキテクチャに挿入可能な安定性アダプタのクラスと,凍結ベースネットワークで実行可能なリソース効率のトレーニングプロセスについて述べる。
- 参考スコア(独自算出の注目度): 13.63794577587008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When applied sequentially to video, frame-based networks often exhibit temporal inconsistency - for example, outputs that flicker between frames. This problem is amplified when the network inputs contain time-varying corruptions. In this work, we introduce a general approach for adapting frame-based models for stable and robust inference on video. We describe a class of stability adapters that can be inserted into virtually any architecture and a resource-efficient training process that can be performed with a frozen base network. We introduce a unified conceptual framework for describing temporal stability and corruption robustness, centered on a proposed accuracy-stability-robustness loss. By analyzing the theoretical properties of this loss, we identify the conditions where it produces well-behaved stabilizer training. Our experiments validate our approach on several vision tasks including denoising (NAFNet), image enhancement (HDRNet), monocular depth (Depth Anything v2), and semantic segmentation (DeepLabv3+). Our method improves temporal stability and robustness against a range of image corruptions (including compression artifacts, noise, and adverse weather), while preserving or improving the quality of predictions.
- Abstract(参考訳): ビデオに順次適用すると、フレームベースのネットワークは時間的不整合(例えば、フレーム間のフリックアウトプット)を示すことが多い。
この問題は、ネットワーク入力に時間変化のある汚職が含まれている場合に増幅される。
本研究では,ビデオ上での安定かつロバストな推論にフレームベースモデルを適用するための一般的なアプローチを提案する。
仮想的なアーキテクチャに挿入可能な安定性アダプタのクラスと,凍結ベースネットワークで実行可能なリソース効率のトレーニングプロセスについて述べる。
本稿では,時間的安定性と破壊堅牢性を記述するための統一的な概念的枠組みを提案する。
この損失の理論的特性を解析することにより、良好な安定化学習を行う条件を特定する。
提案手法は,NAFNet,画像強調(HDRNet),単眼深度(Depth Anything v2),セマンティックセグメンテーション(DeepLabv3+)など,様々な視覚課題に対するアプローチを検証する。
本手法は, 画像の劣化(圧縮品, 騒音, 悪天候など)に対する時間的安定性と堅牢性を向上し, 予測品質を維持・改善する。
関連論文リスト
- Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - Ambiguity in solving imaging inverse problems with deep learning based
operators [0.0]
大規模な畳み込みニューラルネットワークは、画像分解のためのツールとして広く利用されている。
画像の劣化は, 逆問題として数学的にモデル化され, ノイズがデータに与える影響を近似することは困難である。
本稿では,深層学習に基づく画像の復号化に多くの精度を損なうことなく,安定性を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T12:07:08Z) - GPU-accelerated SIFT-aided source identification of stabilized videos [63.084540168532065]
我々は、安定化フレームインバージョンフレームワークにおけるグラフィクス処理ユニット(GPU)の並列化機能を利用する。
我々はSIFT機能を活用することを提案する。
カメラのモーメントを推定し 1%の確率で 時間セグメントを識別します
実験により,提案手法の有効性を確認し,必要な計算時間を短縮し,情報源の同定精度を向上させる。
論文 参考訳(メタデータ) (2022-07-29T07:01:31Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z) - Neural Re-rendering for Full-frame Video Stabilization [144.9918806873405]
まず,高密度ワープ場を推定し,フルフレーム映像安定化のためのアルゴリズムを提案する。
フルフレーム安定化フレームは、隣接するフレームから歪んだコンテンツを融合することで合成することができる。
論文 参考訳(メタデータ) (2021-02-11T18:59:45Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z) - A Backbone Replaceable Fine-tuning Framework for Stable Face Alignment [21.696696531924374]
そこで本稿では,時空間情報を利用して不正確なランドマークを抑えるジッタロス関数を提案する。
提案手法は安定性評価の指標を40%以上改善する。
モデル全体をリトレーニングすることなく、素早く顔画像のランドマーク検出器を、ビデオのためのより良いパフォーマンスの検出器に変換することができる。
論文 参考訳(メタデータ) (2020-10-19T13:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。