論文の概要: ReFIR: Grounding Large Restoration Models with Retrieval Augmentation
- arxiv url: http://arxiv.org/abs/2410.05601v1
- Date: Tue, 8 Oct 2024 01:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 17:48:36.328701
- Title: ReFIR: Grounding Large Restoration Models with Retrieval Augmentation
- Title(参考訳): ReFIR: 検索機能強化による大規模復元モデルの構築
- Authors: Hang Guo, Tao Dai, Zhihao Ouyang, Taolin Zhang, Yaohua Zha, Bin Chen, Shu-tao Xia,
- Abstract要約: 本稿では,Retrieval-augmented Framework for Image Restoration (ReFIR) というソリューションを提案する。
我々のReFIRは、抽出した画像を外部知識として組み込んで、既存のLRMの知識境界を拡張する。
実験により,ReFIRは高忠実度だけでなく,現実的な復元結果も得られることが示された。
- 参考スコア(独自算出の注目度): 52.00990126884406
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in diffusion-based Large Restoration Models (LRMs) have significantly improved photo-realistic image restoration by leveraging the internal knowledge embedded within model weights. However, existing LRMs often suffer from the hallucination dilemma, i.e., producing incorrect contents or textures when dealing with severe degradations, due to their heavy reliance on limited internal knowledge. In this paper, we propose an orthogonal solution called the Retrieval-augmented Framework for Image Restoration (ReFIR), which incorporates retrieved images as external knowledge to extend the knowledge boundary of existing LRMs in generating details faithful to the original scene. Specifically, we first introduce the nearest neighbor lookup to retrieve content-relevant high-quality images as reference, after which we propose the cross-image injection to modify existing LRMs to utilize high-quality textures from retrieved images. Thanks to the additional external knowledge, our ReFIR can well handle the hallucination challenge and facilitate faithfully results. Extensive experiments demonstrate that ReFIR can achieve not only high-fidelity but also realistic restoration results. Importantly, our ReFIR requires no training and is adaptable to various LRMs.
- Abstract(参考訳): 拡散型大規模復元モデル(LRM)の最近の進歩は、モデル重みに埋め込まれた内部知識を活用することにより、写真リアルな画像復元を大幅に改善している。
しかし、既存のLEMは幻覚ジレンマ、すなわち、内部知識に大きく依存しているため、深刻な劣化に対処する際に、不正確な内容やテクスチャを生じさせることがしばしばある。
本稿では,検索した画像を外部知識として組み込んで,既存のLRMの知識境界を拡張して,元のシーンに忠実な詳細を生成する,Retrieval-augmented Framework for Image Restoration(ReFIR)という直交的ソリューションを提案する。
具体的には、まず、近接する近傍のルックアップを導入し、コンテンツ関連高画質画像を参照として検索し、その後、既存のLEMを修正して取得した画像から高品質なテクスチャを利用するクロスイメージインジェクションを提案する。
追加の外部知識のおかげで、私たちのReFIRは幻覚の挑戦をうまく処理することができ、忠実に結果を得られるようになります。
大規模な実験により、ReFIRは高忠実性だけでなく、現実的な修復結果も達成できることが示された。
重要なことは、ReFIRはトレーニングを必要とせず、様々なLEMに適応できることです。
関連論文リスト
- Realistic Extreme Image Rescaling via Generative Latent Space Learning [51.85790402171696]
極端画像再スケーリングのためのLatent Space Based Image Rescaling (LSBIR) という新しいフレームワークを提案する。
LSBIRは、訓練済みのテキスト-画像拡散モデルによって学習された強力な自然画像の先行を効果的に活用し、リアルなHR画像を生成する。
第1段階では、擬似非可逆エンコーダデコーダは、HR画像の潜在特徴とターゲットサイズのLR画像との双方向マッピングをモデル化する。
第2段階では、第1段階からの再構成された特徴を事前訓練された拡散モデルにより洗練し、より忠実で視覚的に喜ぶ詳細を生成する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - MeshLRM: Large Reconstruction Model for High-Quality Mesh [52.71164862539288]
MeshLRMは、わずか4つの入力画像から1秒未満で高品質なメッシュを再構築することができる。
提案手法は,スパースビューからのメッシュ再構築を実現し,多くのダウンストリームアプリケーションを実現する。
論文 参考訳(メタデータ) (2024-04-18T17:59:41Z) - Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models [14.25759541950917]
この研究は、能動的視覚言語モデルと合成分解パイプラインを活用して、野生(ワイルドIR)における画像復元を学習する。
我々の基底拡散モデルは画像復元SDE(IR-SDE)である。
論文 参考訳(メタデータ) (2024-04-15T12:34:21Z) - Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild [57.06779516541574]
SUPIR (Scaling-UP Image Restoration) は、生成前処理とモデルスケールアップのパワーを利用する、画期的な画像復元手法である。
モデルトレーニングのための2000万の高解像度高画質画像からなるデータセットを収集し、それぞれに記述的テキストアノテーションを付加する。
論文 参考訳(メタデータ) (2024-01-24T17:58:07Z) - Reti-Diff: Illumination Degradation Image Restoration with Retinex-based
Latent Diffusion Model [59.08821399652483]
照明劣化画像復元(IDIR)技術は、劣化した画像の視認性を改善し、劣化した照明の悪影響を軽減することを目的としている。
これらのアルゴリズムのうち、拡散モデル(DM)に基づく手法は期待できる性能を示しているが、画像レベルの分布を予測する際に、重い計算要求や画素の不一致の問題に悩まされることが多い。
我々は、コンパクトな潜在空間内でDMを活用して、簡潔な指導先を生成することを提案し、IDIRタスクのためのReti-Diffと呼ばれる新しいソリューションを提案する。
Reti-Diff は Retinex-based Latent DM (RLDM) と Retinex-Guided Transformer (RG) の2つの鍵成分からなる。
論文 参考訳(メタデータ) (2023-11-20T09:55:06Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。