論文の概要: LLV-FSR: Exploiting Large Language-Vision Prior for Face Super-resolution
- arxiv url: http://arxiv.org/abs/2411.09293v1
- Date: Thu, 14 Nov 2024 09:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:35.197456
- Title: LLV-FSR: Exploiting Large Language-Vision Prior for Face Super-resolution
- Title(参考訳): LLV-FSR: 顔超解像に先立って大規模な言語ビジョンを爆発させる
- Authors: Chenyang Wang, Wenjie An, Kui Jiang, Xianming Liu, Junjun Jiang,
- Abstract要約: LLV-FSRと呼ばれる新しいフレームワークを提案する。このフレームワークは、大きな視覚言語モデルと高次視覚モデルのパワーと、顔超解像の課題とをマージする。
MMCelebA-HQデータセットのPSNRでSOTAを0.43dB以上上回って,提案手法は再構築品質と知覚品質の両方を著しく改善することを示した。
- 参考スコア(独自算出の注目度): 67.23699927053191
- License:
- Abstract: Existing face super-resolution (FSR) methods have made significant advancements, but they primarily super-resolve face with limited visual information, original pixel-wise space in particular, commonly overlooking the pluralistic clues, like the higher-order depth and semantics, as well as non-visual inputs (text caption and description). Consequently, these methods struggle to produce a unified and meaningful representation from the input face. We suppose that introducing the language-vision pluralistic representation into unexplored potential embedding space could enhance FSR by encoding and exploiting the complementarity across language-vision prior. This motivates us to propose a new framework called LLV-FSR, which marries the power of large vision-language model and higher-order visual prior with the challenging task of FSR. Specifically, besides directly absorbing knowledge from original input, we introduce the pre-trained vision-language model to generate pluralistic priors, involving the image caption, descriptions, face semantic mask and depths. These priors are then employed to guide the more critical feature representation, facilitating realistic and high-quality face super-resolution. Experimental results demonstrate that our proposed framework significantly improves both the reconstruction quality and perceptual quality, surpassing the SOTA by 0.43dB in terms of PSNR on the MMCelebA-HQ dataset.
- Abstract(参考訳): 既存の顔超解像法(FSR)は大きな進歩を遂げているが、主に視覚情報に制限のある超解像面、特に高次深度や意味論などの多元的手がかりや非視覚的入力(テキストキャプションや記述)を見渡す。
したがって、これらの手法は入力面から統一的で意味のある表現を生成するのに苦労する。
言語ビジョンの多元的表現を未探索の潜在的埋め込み空間に導入することで、言語ビジョン以前の相補性を符号化し活用することにより、FSRを高めることができると仮定する。
これにより,大規模視覚言語モデルと高次視覚前処理のパワーをFSRの課題にマージするLLV-FSRという新しいフレームワークを提案する。
具体的には、元の入力から直接知識を吸収する以外に、画像キャプション、説明、顔の意味マスク、深度を含む複数の先行情報を生成するために、事前学習された視覚言語モデルを導入する。
これらの先行は、より批判的な特徴表現を導くために使用され、現実的で高品質な顔の超解像を促進する。
MMCelebA-HQデータセットのPSNRでSOTAを0.43dB以上上回って,提案手法は再構築品質と知覚品質の両方を著しく改善することを示した。
関連論文リスト
- Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer [40.47880613758304]
大規模言語モデル(LLM)からタスク知識を伝達することにより、ゼロショットFERを向上させる新しい手法Exp-CLIPを提案する。
具体的には、事前訓練された視覚言語エンコーダに基づいて、初期共同視覚言語空間を顔行動の表現をキャプチャする空間にマッピングするプロジェクションヘッドを組み込む。
衝突しない顔データから、Exp-CLIPは、7つの範囲のFERデータセット上でCLIPモデルや他のいくつかの大きなビジョン言語モデル(LVLM)よりも優れたゼロショット結果を達成する。
論文 参考訳(メタデータ) (2024-05-29T14:06:09Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Image Translation as Diffusion Visual Programmers [52.09889190442439]
Diffusion Visual Programmer (DVP) は、ニューロシンボリックな画像翻訳フレームワークである。
我々のフレームワークはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込む。
大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。
論文 参考訳(メタデータ) (2024-01-18T05:50:09Z) - Text-Guided Face Recognition using Multi-Granularity Cross-Modal
Contrastive Learning [0.0]
テキスト誘導顔認識(TGFR)を導入し、自然言語記述の形で顔属性を統合することの影響を解析する。
TGFRは、特に低画質の画像において、既存の顔認識モデルよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-14T22:04:22Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。