論文の概要: Vision-Language Model Guided Image Restoration
- arxiv url: http://arxiv.org/abs/2512.17292v1
- Date: Fri, 19 Dec 2025 07:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.279137
- Title: Vision-Language Model Guided Image Restoration
- Title(参考訳): 視覚言語モデルによる画像復元
- Authors: Cuixin Yang, Rongkang Dong, Kin-Man Lam,
- Abstract要約: 視覚言語モデル(VLM)は、視覚的特徴とテキスト的特徴を普遍的な画像復元に整合させることに優れる。
本稿では,視覚知覚と意味理解を改良し,赤外線性能を向上させる視覚言語モデルガイド画像復元(VLMIR)フレームワークを提案する。
提案手法は,VLMに基づく特徴抽出と拡散に基づく画像復元の2段階からなる。
- 参考スコア(独自算出の注目度): 16.151927651999948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many image restoration (IR) tasks require both pixel-level fidelity and high-level semantic understanding to recover realistic photos with fine-grained details. However, previous approaches often struggle to effectively leverage both the visual and linguistic knowledge. Recent efforts have attempted to incorporate Vision-language models (VLMs), which excel at aligning visual and textual features, into universal IR. Nevertheless, these methods fail to utilize the linguistic priors to ensure semantic coherence during the restoration process. To address this issue, in this paper, we propose the Vision-Language Model Guided Image Restoration (VLMIR) framework, which leverages the rich vision-language priors of VLMs, such as CLIP, to enhance IR performance through improved visual perception and semantic understanding. Our approach consists of two stages: VLM-based feature extraction and diffusion-based image restoration. In the first stage, we extract complementary visual and linguistic representations of input images by condensing the visual perception and high-level semantic priors through VLMs. Specifically, we align the embeddings of captions from low-quality and high-quality images using a cosine similarity loss with LoRA fine-tuning, and employ a degradation predictor to decompose degradation and clean image content embeddings. These complementary visual and textual embeddings are then integrated into a diffusion-based model via cross-attention mechanisms for enhanced restoration. Extensive experiments and ablation studies demonstrate that VLMIR achieves superior performance across both universal and degradation-specific IR tasks, underscoring the critical role of integrated visual and linguistic knowledge from VLMs in advancing image restoration capabilities.
- Abstract(参考訳): 多くの画像復元(IR)タスクは、細かな詳細で写実的な写真を再現するために、ピクセルレベルの忠実さと高レベルの意味理解の両方を必要とする。
しかし、従来のアプローチは視覚的知識と言語的知識の両方を効果的に活用するのに苦労することが多い。
近年,視覚的特徴とテキスト的特徴の整合性に優れた視覚言語モデル (VLM) をユニバーサルIRに組み込もうと試みている。
しかしながら、これらの手法は、回復過程中に意味的一貫性を確保するために言語的先行性を利用することができない。
そこで本稿では,CLIPなどのVLMのリッチビジョン言語に先立って,視覚認識とセマンティック理解を改善して,IR性能を向上させるビジョンランゲージモデルガイド画像復元(VLMIR)フレームワークを提案する。
提案手法は,VLMに基づく特徴抽出と拡散に基づく画像復元の2段階からなる。
第1段階では、VLMを通して視覚知覚と高レベルのセマンティック先行を凝縮することにより、入力画像の相補的な視覚的および言語的表現を抽出する。
具体的には,ローラ微調整によるコサイン類似性損失を用いて,低品質・高画質画像からのキャプションの埋め込みを調整し,劣化予測器を用いて劣化を分解し,画像内容の埋め込みをクリーンにする。
これらの相補的な視覚的およびテキスト的埋め込みは、拡張回復のためのクロスアテンション機構を介して拡散モデルに統合される。
広汎な実験とアブレーション研究により、VLMIRは普遍的および分解特異的なIRタスクにまたがって優れた性能を達成し、画像修復能力の進歩において、VLMからの視覚的および言語的知識の統合が重要な役割を担っていることが示されている。
関連論文リスト
- Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better [44.15671594378141]
自動回帰視覚再構成(ASVR)を導入し,統合された自己回帰フレームワーク内での視覚的・テキスト的モダリティの同時学習を実現する。
ASVRは14のマルチモーダルベンチマークの平均スコアでLLaVA-1.5を5%改善する。
論文 参考訳(メタデータ) (2025-06-10T17:57:50Z) - Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses [31.85977999591524]
視覚言語モデルは、画像領域と大規模トレーニングデータの単語を暗黙的に関連付けることを学習する。
テキストモダリティ内のリッチな意味的構造と構文的構造は、監督の源として見過ごされている。
階層的構造化学習(HIST)は、追加の人間のアノテーションを使わずに、空間的視覚言語アライメントを強化する。
論文 参考訳(メタデータ) (2024-12-11T05:36:18Z) - LLV-FSR: Exploiting Large Language-Vision Prior for Face Super-resolution [67.23699927053191]
LLV-FSRと呼ばれる新しいフレームワークを提案する。このフレームワークは、大きな視覚言語モデルと高次視覚モデルのパワーと、顔超解像の課題とをマージする。
MMCelebA-HQデータセットのPSNRでSOTAを0.43dB以上上回って,提案手法は再構築品質と知覚品質の両方を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-11-14T09:12:18Z) - SSP-IR: Semantic and Structure Priors for Diffusion-based Realistic Image Restoration [20.873676111265656]
SSP-IRは、低画質の画像からセマンティックと構造をフル活用することを目的としている。
提案手法は,合成および実世界のデータセットにおいて,他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-04T04:55:14Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - SPIRE: Semantic Prompt-Driven Image Restoration [66.26165625929747]
セマンティック・復元型画像復元フレームワークであるSPIREを開発した。
本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。
本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
論文 参考訳(メタデータ) (2023-12-18T17:02:30Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。