論文の概要: Grounding Degradations in Natural Language for All-In-One Video Restoration
- arxiv url: http://arxiv.org/abs/2507.14851v1
- Date: Sun, 20 Jul 2025 07:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.091728
- Title: Grounding Degradations in Natural Language for All-In-One Video Restoration
- Title(参考訳): オールインワンビデオ再生のための自然言語のグラウンド化
- Authors: Muhammad Kamran Janjua, Amirhosein Ghasemabadi, Kunlin Zhang, Mohammad Salameh, Chao Gao, Di Niu,
- Abstract要約: 本稿では,自然言語による映像フレームの劣化認識意味文脈を基盤としたオールインワンビデオ復元フレームワークを提案する。
従来の手法とは異なり,本手法は列車や試験時間における劣化知識を前提とせず,基礎知識の近似を学習する。
- 参考スコア(独自算出の注目度): 22.194223546191267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose an all-in-one video restoration framework that grounds degradation-aware semantic context of video frames in natural language via foundation models, offering interpretable and flexible guidance. Unlike prior art, our method assumes no degradation knowledge in train or test time and learns an approximation to the grounded knowledge such that the foundation model can be safely disentangled during inference adding no extra cost. Further, we call for standardization of benchmarks in all-in-one video restoration, and propose two benchmarks in multi-degradation setting, three-task (3D) and four-task (4D), and two time-varying composite degradation benchmarks; one of the latter being our proposed dataset with varying snow intensity, simulating how weather degradations affect videos naturally. We compare our method with prior works and report state-of-the-art performance on all benchmarks.
- Abstract(参考訳): 本研究では,基盤モデルによる自然言語による映像フレームの劣化認識コンテキストを基盤として,解釈可能かつ柔軟なガイダンスを提供するオールインワンビデオ復元フレームワークを提案する。
従来の技術とは異なり,本手法では,列車や試験時間における劣化知識を前提とせず,基礎モデルを推論中に安全に拘束できるような基礎知識の近似を学習し,余分なコストを伴わない。
さらに, オールインワンビデオ修復におけるベンチマークの標準化を提案し, マルチデグラデーション設定における2つのベンチマーク, 3タスク(3D)と4タスク(4D)、および2つの時間変動複合劣化ベンチマークを提案する。
提案手法を先行研究と比較し,すべてのベンチマークで最先端性能を報告する。
関連論文リスト
- Continual Learning-Based Unified Model for Unpaired Image Restoration Tasks [2.7241418453016792]
自律運転のような応用には、異なる気象条件により劣化した画像の復元を行うために統一モデルが必要である。
画像復元のための統合フレームワークを提案するために,連続的な学習手法を提案する。
PSNR, SSIM, 知覚的品質が, 最先端技術よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-07-25T11:47:40Z) - Conditional Video Generation for High-Efficiency Video Compression [47.011087624381524]
本稿では,条件付き拡散モデルを利用した映像圧縮フレームワークを提案する。
具体的には、映像圧縮を条件生成タスクとして再構成し、生成モデルがスパース信号から映像を合成する。
論文 参考訳(メタデータ) (2025-07-21T06:16:27Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - TDM: Temporally-Consistent Diffusion Model for All-in-One Real-World Video Restoration [13.49297560533422]
本手法は,単一の統一モデルを用いて,様々な種類の映像劣化を復元することができる。
本手法は,複数のアプリケーションにまたがる映像品質を向上する統合ソリューションを提供することにより,映像復元タスクを高速化する。
論文 参考訳(メタデータ) (2025-01-04T12:15:37Z) - DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models [9.145545884814327]
DiffIR2VR-Zeroは、任意の事前訓練された画像復元モデルで、追加のトレーニングなしで高品質な映像復元を行うことができるゼロショットフレームワークである。
我々のフレームワークは、任意の画像復元拡散モデルで動作し、タスク固有のトレーニングや修正なしに、映像強調のための汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-07-01T17:59:12Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video
Retrieval [67.52910255064762]
時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。
まず、時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。
自己スーパービジョンから得られたセマンティック類似性知識の助けを借りて、ハッシュ層はセマンティック検索のための情報を取得することを学習する。
このようにして、モデルは自然に二進的なコードに絡み合ったセマンティクスを保存します。
論文 参考訳(メタデータ) (2023-10-12T03:21:12Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。