論文の概要: The Power of Context: How Multimodality Improves Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2503.14503v1
- Date: Tue, 18 Mar 2025 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:16.544366
- Title: The Power of Context: How Multimodality Improves Image Super-Resolution
- Title(参考訳): コンテキストのパワー:マルチモーダリティが画像の超解法をどのように改善するか
- Authors: Kangfu Mei, Hossein Talebi, Mojtaba Ardakani, Vishal M. Patel, Peyman Milanfar, Mauricio Delbracio,
- Abstract要約: シングルイメージ超解像(SISR)は、低解像度入力から微細な細部を復元することが本質的に困難であるため、依然として困難である。
本稿では、複数のモードで利用可能なリッチな文脈情報を活用して、SISRの強力な生成前処理を学習する手法を提案する。
我々のモデルは最先端のSISR法を超越し、優れた視覚的品質と忠実さを実現している。
- 参考スコア(独自算出の注目度): 42.21009967392721
- License:
- Abstract: Single-image super-resolution (SISR) remains challenging due to the inherent difficulty of recovering fine-grained details and preserving perceptual quality from low-resolution inputs. Existing methods often rely on limited image priors, leading to suboptimal results. We propose a novel approach that leverages the rich contextual information available in multiple modalities -- including depth, segmentation, edges, and text prompts -- to learn a powerful generative prior for SISR within a diffusion model framework. We introduce a flexible network architecture that effectively fuses multimodal information, accommodating an arbitrary number of input modalities without requiring significant modifications to the diffusion process. Crucially, we mitigate hallucinations, often introduced by text prompts, by using spatial information from other modalities to guide regional text-based conditioning. Each modality's guidance strength can also be controlled independently, allowing steering outputs toward different directions, such as increasing bokeh through depth or adjusting object prominence via segmentation. Extensive experiments demonstrate that our model surpasses state-of-the-art generative SISR methods, achieving superior visual quality and fidelity. See project page at https://mmsr.kfmei.com/.
- Abstract(参考訳): シングルイメージ・スーパーレゾリューション(SISR)は、細かな細部を回復し、低解像度入力から知覚品質を維持するのが本質的に難しいため、依然として困難である。
既存の手法は、しばしば限られた画像の先行に頼り、最適以下の結果をもたらす。
拡散モデルフレームワーク内でSISRの強力な生成前を学習するために、深度、セグメンテーション、エッジ、テキストプロンプトを含む複数のモードで利用可能なリッチなコンテキスト情報を活用する新しいアプローチを提案する。
本稿では,多モード情報を効果的に融合するフレキシブルネットワークアーキテクチャを導入し,拡散過程に大幅な変更を加えることなく任意の数の入力モダリティを収容する。
重要なことは、他のモダリティからの空間情報を用いて、テキストプロンプトによってしばしば導入される幻覚を緩和し、地域テキストベースのコンディショニングを導くことである。
各モダリティの誘導強度は独立して制御することができ、ボケを深度で増やしたり、セグメンテーションによって物体の優位性を調整するなど、異なる方向に向けて出力を操ることができる。
広汎な実験により、我々のモデルは最先端のSISR法を超越し、より優れた視覚的品質と忠実性を実現していることが示された。
プロジェクトページはhttps://mmsr.kfmei.com/にある。
関連論文リスト
- CLIP-SR: Collaborative Linguistic and Image Processing for Super-Resolution [21.843398350371867]
畳み込みニューラルネットワーク(CNN)は高度な画像超解像(SR)を持つ
ほとんどのCNNベースのメソッドはピクセルベースの変換のみに依存しており、アーティファクトやぼやけにつながっている。
テキストのセマンティックスと視覚的特徴を組み合わせたマルチモーダルなセマンティックエンハンスメント手法を提案する。
論文 参考訳(メタデータ) (2024-12-16T09:50:09Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。
モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。
有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文 参考訳(メタデータ) (2024-07-09T10:15:31Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Rethinking Super-Resolution as Text-Guided Details Generation [21.695227836312835]
テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
論文 参考訳(メタデータ) (2022-07-14T01:46:38Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Multimodal Deep Unfolding for Guided Image Super-Resolution [23.48305854574444]
ディープラーニング手法は、低解像度の入力から高解像度の出力へのエンドツーエンドのマッピングを学習するために、トレーニングデータに依存する。
本稿では,スパース事前を組み込んだマルチモーダル深層学習設計を提案し,他の画像モダリティからの情報をネットワークアーキテクチャに効果的に統合する。
提案手法は,サイド情報を用いた畳み込みスパース符号化の反復的アルゴリズムに類似した,新しい展開演算子に依存している。
論文 参考訳(メタデータ) (2020-01-21T14:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。