論文の概要: Understanding Degradation with Vision Language Model
- arxiv url: http://arxiv.org/abs/2602.04565v1
- Date: Wed, 04 Feb 2026 13:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.552973
- Title: Understanding Degradation with Vision Language Model
- Title(参考訳): 視覚言語モデルによる劣化の理解
- Authors: Guanzhou Lan, Chenyi Liao, Yuqi Yang, Qianli Ma, Zhigang Wang, Dong Wang, Bin Zhao, Xuelong Li,
- Abstract要約: 視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
- 参考スコア(独自算出の注目度): 56.09241449206817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding visual degradations is a critical yet challenging problem in computer vision. While recent Vision-Language Models (VLMs) excel at qualitative description, they often fall short in understanding the parametric physics underlying image degradations. In this work, we redefine degradation understanding as a hierarchical structured prediction task, necessitating the concurrent estimation of degradation types, parameter keys, and their continuous physical values. Although these sub-tasks operate in disparate spaces, we prove that they can be unified under one autoregressive next-token prediction paradigm, whose error is bounded by the value-space quantization grid. Building on this insight, we introduce DU-VLM, a multimodal chain-of-thought model trained with supervised fine-tuning and reinforcement learning using structured rewards. Furthermore, we show that DU-VLM can serve as a zero-shot controller for pre-trained diffusion models, enabling high-fidelity image restoration without fine-tuning the generative backbone. We also introduce \textbf{DU-110k}, a large-scale dataset comprising 110,000 clean-degraded pairs with grounded physical annotations. Extensive experiments demonstrate that our approach significantly outperforms generalist baselines in both accuracy and robustness, exhibiting generalization to unseen distributions.
- Abstract(参考訳): 視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
近年のビジョン・ランゲージ・モデル(VLM)は質的な記述で優れているが、画像劣化の基礎となるパラメトリック物理学の理解に不足することが多い。
本研究では,階層構造予測タスクとしての分解理解を再定義し,分解型,パラメータキー,およびその連続的な物理値の同時推定を必要とする。
これらのサブタスクは異なる空間で動作するが、値空間量子化グリッドによって境界付けられた1つの自己回帰的次トーケン予測パラダイムの下で統一可能であることを証明している。
この知見に基づいて、構造化報酬を用いた教師付き微調整および強化学習で訓練されたマルチモーダル・チェーン・オブ・シントモデルであるDU-VLMを導入する。
さらに, DU-VLMは事前学習した拡散モデルのゼロショットコントローラとして機能し, 生成バックボーンを微調整することなく高忠実度画像復元を可能にすることを示す。
また,110,000個の清浄なペアと接地された物理アノテーションからなる大規模データセットである「textbf{DU-110k}」も導入した。
大規模な実験により,本手法は精度とロバスト性の両方において一般の基準線を著しく上回り,目に見えない分布への一般化を示すことが示された。
関連論文リスト
- Simplicity Prevails: The Emergence of Generalizable AIGI Detection in Visual Foundation Models [15.709482146201283]
現代のビジョン・ファンデーション・モデル(Vision Foundation Models)の凍結した特徴に基づいて訓練された単純な線形分類器は、新しい最先端技術を確立している。
この基準線は標準ベンチマーク上の特別な検出器と一致し、また、ウィジェット内のデータセット上では決定的に優れていることを示す。
我々は、AIの法医学におけるパラダイムシフトを提唱し、静的ベンチマークの過度な適合から、ファンデーションモデルの進化する世界の知識を現実の信頼性に活用することへと移行した。
論文 参考訳(メタデータ) (2026-02-02T07:20:02Z) - Understanding the Transfer Limits of Vision Foundation Models [38.99867932557529]
ファンデーションモデルは大規模な事前学習を利用して広範な知識を捉え、幅広い言語タスクにおける一般化を実証する。
この制限は、事前学習目標と下流の視覚・画像タスクの要求とのミスマッチから生じると仮定する。
一般的な視覚パターンの回復やグローバルな意味構造などのタスクに対する、マスク付き画像再構成や対照的な学習形状表現などの事前学習戦略。
以上の結果から,事前学習と下流作業の整合性は,最大平均偏差(MMD)などの単純な分散指標によって測定され,微調整前後の同一特徴間の相関が強く,性能改善と相関することが示唆された。
論文 参考訳(メタデータ) (2026-01-22T12:07:56Z) - LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models [4.497411606350301]
LPR(Real-world License Plate Recognition)は、モーションボケ、低解像度、複雑な照明などの深刻な劣化によって大きな課題に直面している。
画像復元モデルの画素レベルの最適化目標は、文字認識のセマンティックな目標と不一致である。
本稿では,Qwen3-VLに基づくエンドツーエンド構造対応マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T03:32:55Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。
量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。
標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-18T06:40:26Z) - Semantic-guided Fine-tuning of Foundation Model for Long-tailed Visual Recognition [38.74388860692423]
長期視覚認識のための基礎モデルのセマンティック誘導微調整法(セージ)を提案する。
クラス記述をセマンティックガイダンスとして統合したSG-Adapterを導入し,ビジュアルエンコーダの微調整を指導する。
ベンチマークデータセットの実験は、長期学習におけるパフォーマンス向上における提案されたSageの有効性を示す。
論文 参考訳(メタデータ) (2025-07-17T05:47:19Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Improved Visual Fine-tuning with Natural Language Supervision [36.250244364023665]
視覚的事前学習モデルの微調整は、大規模事前学習データからの意味情報を活用することができる。
術前訓練した背骨における破折性忘れの問題は、微調整のために広く研究されている。
固定テキスト分類器から得られた参照分布を導入し,学習した視覚分類器の正規化を支援する。
論文 参考訳(メタデータ) (2023-04-04T03:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。