論文の概要: V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration
- arxiv url: http://arxiv.org/abs/2603.13089v1
- Date: Fri, 13 Mar 2026 15:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.162049
- Title: V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration
- Title(参考訳): V-Bridge(動画)
- Authors: Shenghe Zheng, Junpeng Jiang, Wenbo Li,
- Abstract要約: V-Bridgeは、多目的な数ショット画像復元タスクに遅延容量をブリッジするフレームワークである。
既存の修復方法の2%未満の1,000個のマルチタスクトレーニングサンプルで、事前訓練されたビデオモデルは、競争力のある画像復元を行うために誘導される。
その結果,映像生成モデルは,極めて限られたデータでのみ活性化可能な,強力で伝達可能な復元前処理を暗黙的に学習できることが判明した。
- 参考スコア(独自算出の注目度): 8.147701740798297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale video generative models are trained on vast and diverse visual data, enabling them to internalize rich structural, semantic, and dynamic priors of the visual world. While these models have demonstrated impressive generative capability, their potential as general-purpose visual learners remains largely untapped. In this work, we introduce V-Bridge, a framework that bridges this latent capacity to versatile few-shot image restoration tasks. We reinterpret image restoration not as a static regression problem, but as a progressive generative process, and leverage video models to simulate the gradual refinement from degraded inputs to high-fidelity outputs. Surprisingly, with only 1,000 multi-task training samples (less than 2% of existing restoration methods), pretrained video models can be induced to perform competitive image restoration, achieving multiple tasks with a single model, rivaling specialized architectures designed explicitly for this purpose. Our findings reveal that video generative models implicitly learn powerful and transferable restoration priors that can be activated with only extremely limited data, challenging the traditional boundary between generative modeling and low-level vision, and opening a new design paradigm for foundation models in visual tasks.
- Abstract(参考訳): 大規模ビデオ生成モデルは、広範かつ多様な視覚データに基づいて訓練され、視覚世界のリッチな構造、セマンティック、動的事前を内部化することができる。
これらのモデルは印象的な生成能力を示してきたが、汎用的な視覚学習者としての可能性はほとんど失われていない。
本研究では,この遅延容量を多目的な数ショット画像復元タスクにブリッジするフレームワークであるV-Bridgeを紹介する。
我々は、画像復元を静的回帰問題ではなく、プログレッシブな生成過程として再解釈し、ビデオモデルを利用して劣化した入力から高忠実度出力への段階的改善をシミュレートする。
驚くべきことに、既存の修復方法の2%未満の1,000のマルチタスクトレーニングサンプルで、事前訓練されたビデオモデルは、競争力のある画像復元を行うために誘導され、単一のモデルで複数のタスクを達成し、この目的のために明示的に設計された特殊なアーキテクチャと競合する。
その結果,映像生成モデルは,非常に限られたデータでのみ活性化可能な,強力で伝達可能な再生前の先行情報を暗黙的に学習し,生成モデルと低レベルの視界の境界に挑戦し,視覚タスクにおける基礎モデルのための新しい設計パラダイムを創り出すことができた。
関連論文リスト
- GT-SVJ: Generative-Transformer-Based Self-Supervised Video Judge For Efficient Video Reward Modeling [18.51125967961176]
ビデオ生成モデルは本質的に、時間構造を報酬モデルとしてモデル化するために設計されている。
Modelnameは、GenAI-BenchとMonteBenchで30Kの人間アノテーションを使用して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-05T01:54:01Z) - iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation [60.66986667921744]
iMontageは、強力なビデオモデルをオールインワンイメージジェネレータに再利用するために設計された統一されたフレームワークである。
本稿では,データキュレーションプロセスとトレーニングパラダイムを補完するエレガントで最小限の適応戦略を提案する。
このアプローチにより、モデルは、その貴重な元の動きを損なうことなく、広い画像操作能力を得ることができる。
論文 参考訳(メタデータ) (2025-11-25T18:54:16Z) - From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。
我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。
提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-06-08T20:52:34Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities [56.5742116979914]
CustomCrafterは、追加のビデオやリカバリのための微調整なしで、モデルの動き生成と概念的な組み合わせ能力を保持する。
動作生成では,VDMが早期に映像の動きを回復する傾向が見られた。
復調の後期では、特定対象の外観詳細を修復するために、このモジュールを復元する。
論文 参考訳(メタデータ) (2024-08-23T17:26:06Z) - Review Learning: Advancing All-in-One Ultra-High-Definition Image Restoration Training Method [7.487270862599671]
本稿では,bfReview Learning という一般画像復元モデルの学習パラダイムを提案する。
このアプローチは、いくつかの劣化したデータセット上のイメージ復元モデルのシーケンシャルなトレーニングと、レビューメカニズムの組み合わせから始まります。
コンシューマグレードのGPU上で4K解像度で画像の劣化を効率的に推論できる軽量な全目的画像復元ネットワークを設計する。
論文 参考訳(メタデータ) (2024-08-13T08:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。