論文の概要: Towards Blind Bitstream-corrupted Video Recovery via a Visual Foundation Model-driven Framework
- arxiv url: http://arxiv.org/abs/2507.22481v1
- Date: Wed, 30 Jul 2025 08:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.099121
- Title: Towards Blind Bitstream-corrupted Video Recovery via a Visual Foundation Model-driven Framework
- Title(参考訳): Visual Foundation Model-Driven FrameworkによるBlind Bitstream崩壊ビデオリカバリに向けて
- Authors: Tianyi Liu, Kejun Wu, Chen Cai, Yi Wang, Kim-Hui Yap, Lap-Pui Chau,
- Abstract要約: ビットストリームの破損したビデオリカバリは、困難かつ未調査の課題として浮上した。
本稿では,視覚的基盤モデルと回復モデルを統合した最初の視覚的ビットストリーム崩壊ビデオ回復フレームワークを提案する。
本手法は,手動でラベル付けしたマスクシーケンスを必要とせずに,ビットストリームの破損した映像の再生において優れた性能を実現する。
- 参考スコア(独自算出の注目度): 28.383016293452652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video signals are vulnerable in multimedia communication and storage systems, as even slight bitstream-domain corruption can lead to significant pixel-domain degradation. To recover faithful spatio-temporal content from corrupted inputs, bitstream-corrupted video recovery has recently emerged as a challenging and understudied task. However, existing methods require time-consuming and labor-intensive annotation of corrupted regions for each corrupted video frame, resulting in a large workload in practice. In addition, high-quality recovery remains difficult as part of the local residual information in corrupted frames may mislead feature completion and successive content recovery. In this paper, we propose the first blind bitstream-corrupted video recovery framework that integrates visual foundation models with a recovery model, which is adapted to different types of corruption and bitstream-level prompts. Within the framework, the proposed Detect Any Corruption (DAC) model leverages the rich priors of the visual foundation model while incorporating bitstream and corruption knowledge to enhance corruption localization and blind recovery. Additionally, we introduce a novel Corruption-aware Feature Completion (CFC) module, which adaptively processes residual contributions based on high-level corruption understanding. With VFM-guided hierarchical feature augmentation and high-level coordination in a mixture-of-residual-experts (MoRE) structure, our method suppresses artifacts and enhances informative residuals. Comprehensive evaluations show that the proposed method achieves outstanding performance in bitstream-corrupted video recovery without requiring a manually labeled mask sequence. The demonstrated effectiveness will help to realize improved user experience, wider application scenarios, and more reliable multimedia communication and storage systems.
- Abstract(参考訳): ビデオ信号はマルチメディア通信やストレージシステムでは脆弱であり、ビットストリームドメインの破損さえも、ピクセルドメインの大幅な劣化につながる可能性がある。
劣化した入力から忠実な時空間的コンテンツを回復するために、ビットストリームの破損したビデオリカバリは、最近、困難かつ未検討の課題として浮上した。
しかし、既存の手法では、腐敗した各ビデオフレームに対して、劣化した領域の時間的および労働集約的なアノテーションが必要であるため、実際には大きな作業負荷が発生する。
さらに, 劣化フレームにおける局所的残留情報の一部として, 特徴補完と連続的コンテンツ回復を誤認する可能性があるため, 高品質な回復は依然として困難である。
本稿では,視覚基盤モデルと復調モデルを統合し,異なる種類の汚職やビットストリームレベルのプロンプトに適応した視覚基盤モデルを統合する,最初のブラインドビットストリーム崩壊ビデオリカバリフレームワークを提案する。
フレームワーク内では、提案されたTect Any Corruption(DAC)モデルが、ビットストリームと汚職の知識を取り入れて、汚職のローカライゼーションとブラインドリカバリを強化しながら、視覚基盤モデルの豊富な先例を活用している。
さらに,高レベルな汚職理解に基づいて残余貢献を適応的に処理するCFCモジュールについても紹介する。
VFM誘導型階層的特徴増大とMRE(Mix-of-Residual-Experts)構造における高次調整により, 人工物抑制と情報的残留物の向上が図られた。
総合評価の結果,提案手法は,手動でラベル付けしたマスクシーケンスを必要とせずに,ビットストリームの破損したビデオ再生において優れた性能を発揮することが示された。
実証された有効性は、改善されたユーザエクスペリエンス、より広範なアプリケーションシナリオ、より信頼性の高いマルチメディア通信およびストレージシステムを実現するのに役立つ。
関連論文リスト
- AR2: Attention-Guided Repair for the Robustness of CNNs Against Common Corruptions [5.294455344248843]
ディープニューラルネットワークは、一般的な汚職に晒された場合、大きなパフォーマンス劣化に悩まされる。
本稿では,事前学習したCNNの破壊堅牢性を高めるためにAR2(Attention-Guided repair for Robustness)を提案する。
論文 参考訳(メタデータ) (2025-07-08T18:37:00Z) - Corrupted but Not Broken: Understanding and Mitigating the Negative Impacts of Corrupted Data in Visual Instruction Tuning [92.16191092329765]
マルチモーダル大言語モデル(MLLM)における劣化データの影響について検討する。
劣化したデータはモデル性能を劣化させるが、そのような悪影響は大部分が可逆的である。
破損したデータの影響を緩和する既存の戦略をはるかに上回る汚職・汚職訓練パラダイムを導入する。
論文 参考訳(メタデータ) (2025-02-18T08:28:29Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video
Retrieval [67.52910255064762]
時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。
まず、時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。
自己スーパービジョンから得られたセマンティック類似性知識の助けを借りて、ハッシュ層はセマンティック検索のための情報を取得することを学習する。
このようにして、モデルは自然に二進的なコードに絡み合ったセマンティクスを保存します。
論文 参考訳(メタデータ) (2023-10-12T03:21:12Z) - Bitstream-Corrupted Video Recovery: A Novel Benchmark Dataset and Method [24.986639795808564]
bitstream-corrupted video (BSCV)ベンチマークは、28,000以上のビデオクリップを備えた最初のベンチマークデータセットである。
BSCVは,1)ビデオビットストリームのための3パラメータ汚職モデル,2)リッチなエラーパターン,複数の汚職レベル,フレキシブルなデータセットブランチを含む大規模データセット,3)ベンチマークとして機能するビデオリカバリフレームワークのプラグイン・アンド・プレイモジュールの集合である。
我々は,BSCVデータセット上での最先端ビデオ塗装手法の評価を行い,既存のアプローチの限界と,ビットストリーム崩壊ビデオ回復問題の解決におけるフレームワークの利点を実証した。
論文 参考訳(メタデータ) (2023-09-25T06:06:26Z) - Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video
Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。
2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。
さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文 参考訳(メタデータ) (2023-09-04T14:18:00Z) - Making Reconstruction-based Method Great Again for Video Anomaly
Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。
既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。
連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-28T01:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。