論文の概要: Leveraging Vision-Language Models to Select Trustworthy Super-Resolution Samples Generated by Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.20832v1
- Date: Wed, 25 Jun 2025 21:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.888402
- Title: Leveraging Vision-Language Models to Select Trustworthy Super-Resolution Samples Generated by Diffusion Models
- Title(参考訳): 拡散モデルによる高分解能試料選択のためのビジョンランゲージモデルの導入
- Authors: Cansu Korkmaz, Ahmet Murat Tekalp, Zafer Dogan,
- Abstract要約: 本稿では拡散生成集合から最も信頼できるSRサンプルを特定するための堅牢なフレームワークを提案する。
本稿では,意味的類似性に基づいてSR信頼性を定量化するハイブリッド尺度TWSを提案する。
アウトプットを人間の期待と意味的正しさに合わせることで、この研究は生成的SRにおける信頼性の新たなベンチマークを定めている。
- 参考スコア(独自算出の注目度): 0.026861992804651083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Super-resolution (SR) is an ill-posed inverse problem with many feasible solutions consistent with a given low-resolution image. On one hand, regressive SR models aim to balance fidelity and perceptual quality to yield a single solution, but this trade-off often introduces artifacts that create ambiguity in information-critical applications such as recognizing digits or letters. On the other hand, diffusion models generate a diverse set of SR images, but selecting the most trustworthy solution from this set remains a challenge. This paper introduces a robust, automated framework for identifying the most trustworthy SR sample from a diffusion-generated set by leveraging the semantic reasoning capabilities of vision-language models (VLMs). Specifically, VLMs such as BLIP-2, GPT-4o, and their variants are prompted with structured queries to assess semantic correctness, visual quality, and artifact presence. The top-ranked SR candidates are then ensembled to yield a single trustworthy output in a cost-effective manner. To rigorously assess the validity of VLM-selected samples, we propose a novel Trustworthiness Score (TWS) a hybrid metric that quantifies SR reliability based on three complementary components: semantic similarity via CLIP embeddings, structural integrity using SSIM on edge maps, and artifact sensitivity through multi-level wavelet decomposition. We empirically show that TWS correlates strongly with human preference in both ambiguous and natural images, and that VLM-guided selections consistently yield high TWS values. Compared to conventional metrics like PSNR, LPIPS, which fail to reflect information fidelity, our approach offers a principled, scalable, and generalizable solution for navigating the uncertainty of the diffusion SR space. By aligning outputs with human expectations and semantic correctness, this work sets a new benchmark for trustworthiness in generative SR.
- Abstract(参考訳): 超解像 (SR) は、与えられた低分解能画像と整合性を持つ多くの実現可能な解を持つ不測の逆問題である。
一方、回帰SRモデルは、忠実さと知覚的品質のバランスを保ち、一つのソリューションを生み出すことを目的としているが、このトレードオフは、桁や文字を認識するなどの情報クリティカルなアプリケーションにおいて曖昧さを生み出すアーティファクトをしばしば導入する。
一方、拡散モデルは様々なSR画像を生成するが、この集合から最も信頼できる解を選択することは依然として困難である。
本稿では,視覚言語モデル(VLM)のセマンティック推論機能を活用することで,拡散生成集合から最も信頼性の高いSRサンプルを識別する,堅牢で自動化されたフレームワークを提案する。
具体的には,BLIP-2 や GPT-4o などの VLM およびそれらの変種は,意味的正確性,視覚的品質,人工物の存在を評価するための構造化クエリによって誘導される。
トップランクのSR候補者は、費用対効果のある方法で単一の信頼できる出力を得るためにアンサンブルされる。
VLM選択サンプルの有効性を厳密に評価するために,CLIP埋め込みによる意味的類似性,エッジマップにおけるSSIMを用いた構造的整合性,マルチレベルウェーブレット分解によるアーチファクト感度の3つの相補的要素に基づくSR信頼性の定量化を行うハイブリッド指標TWSを提案する。
我々は,不明瞭な画像と自然画像の両方において,TWSが人間の嗜好と強く相関し,VLM誘導選択が常に高いTWS値を生成することを実証的に示す。
情報忠実度を反映できないPSNRやLPIPSのような従来の指標と比較すると,我々の手法は拡散SR空間の不確実性をナビゲートするための原則付き,スケーラブルで,一般化可能なソリューションを提供する。
アウトプットを人間の期待と意味的正しさに合わせることで、この研究は生成的SRにおける信頼性の新たなベンチマークを定めている。
関連論文リスト
- One-Step Diffusion-based Real-World Image Super-Resolution with Visual Perception Distillation [53.24542646616045]
画像超解像(SR)生成に特化して設計された新しい視覚知覚拡散蒸留フレームワークであるVPD-SRを提案する。
VPD-SRは2つのコンポーネントから構成される: 明示的セマンティック・アウェア・スーパービジョン(ESS)と高周波知覚(HFP)損失。
提案したVPD-SRは,従来の最先端手法と教師モデルの両方と比較して,たった1ステップのサンプリングで優れた性能が得られる。
論文 参考訳(メタデータ) (2025-06-03T08:28:13Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - A Lightweight Deep Exclusion Unfolding Network for Single Image Reflection Removal [68.0573194557999]
シングルイメージリフレクション除去(SIRR)は、標準的なブラインドソース分離問題である。
本稿ではSIRRのための新しいDeep Exclusion Unfolding Network(DExNet)を提案する。
DExNetは、単純な反復スパースと補助的特徴更新(i-SAFU)アルゴリズムの展開とパラメータ化によって構築される。
論文 参考訳(メタデータ) (2025-03-03T07:54:27Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Trustworthy SR: Resolving Ambiguity in Image Super-resolution via
Diffusion Models and Human Feedback [5.665865832321032]
超解像(英: Super- resolution, SR)は、与えられた低分解能画像と整合した大量の実現可能な解を持つ不測の逆問題である。
そこで我々は,被験者に少数のサンプルを選定するよう依頼し,選択したサンプルの平均をアンサンブルする。
提案手法は,最先端のSR手法と比較して信頼性の高いソリューションを提供する。
論文 参考訳(メタデータ) (2024-02-12T11:55:02Z) - Perception-Distortion Trade-off in the SR Space Spanned by Flow Models [21.597478894658263]
フローベース生成超解法(SR)モデルは、SR空間と呼ばれる、実現可能なSRソリューションの多様なセットを生成することを学ぶ。
本稿では,ランダムなアーチファクトを排除し,知覚品質を著しく損なうことなく忠実さを向上する単一SR画像を得るための,単純だが効果的な画像アンサンブル/融合手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T13:12:21Z) - Quality Assessment of Image Super-Resolution: Balancing Deterministic
and Statistical Fidelity [14.586878663223832]
決定論的忠実度(DF)と統計的忠実度(SF)の2次元(2次元)空間におけるSR画像品質評価(SR IQA)の問題点を考察する。
本稿では,この2つの忠実度尺度を,超解像忠実度指数(SRIF)と呼ばれる全体的な品質予測にマージする不確実性重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T02:09:17Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。