論文の概要: DIffSteISR: Harnessing Diffusion Prior for Superior Real-world Stereo Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2408.07516v2
- Date: Thu, 15 Aug 2024 02:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 10:43:38.324071
- Title: DIffSteISR: Harnessing Diffusion Prior for Superior Real-world Stereo Image Super-Resolution
- Title(参考訳): DIffSteISR:スーパーワールドステレオ画像の高分解能化に先立って拡散を悪化させる
- Authors: Yuanbo Zhou, Xinlin Zhang, Wei Deng, Tao Wang, Tao Tan, Qinquan Gao, Tong Tong,
- Abstract要約: DiffSteISRは、現実世界のステレオ画像の再構築のための先駆的なフレームワークである。
DiffSteISRは、事前訓練されたテキスト-画像モデルに埋め込まれた強力な事前知識を利用して、失われたテクスチャの詳細を効率的に回収する。
DiffSteISRは低解像度ステレオ画像から自然的かつ正確なテクスチャを正確に再構成する。
- 参考スコア(独自算出の注目度): 9.051054674138646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DiffSteISR, a pioneering framework for reconstructing real-world stereo images. DiffSteISR utilizes the powerful prior knowledge embedded in pre-trained text-to-image model to efficiently recover the lost texture details in low-resolution stereo images. Specifically, DiffSteISR implements a time-aware stereo cross attention with temperature adapter (TASCATA) to guide the diffusion process, ensuring that the generated left and right views exhibit high texture consistency thereby reducing disparity error between the super-resolved images and the ground truth (GT) images. Additionally, a stereo omni attention control network (SOA ControlNet) is proposed to enhance the consistency of super-resolved images with GT images in the pixel, perceptual, and distribution space. Finally, DiffSteISR incorporates a stereo semantic extractor (SSE) to capture unique viewpoint soft semantic information and shared hard tag semantic information, thereby effectively improving the semantic accuracy and consistency of the generated left and right images. Extensive experimental results demonstrate that DiffSteISR accurately reconstructs natural and precise textures from low-resolution stereo images while maintaining a high consistency of semantic and texture between the left and right views.
- Abstract(参考訳): DiffSteISRは、現実世界のステレオ画像の再構築のための先駆的なフレームワークである。
DiffSteISRは、事前訓練されたテキスト・画像モデルに埋め込まれた強力な事前知識を利用して、低解像度ステレオ画像における失われたテクスチャの詳細を効率的に回収する。
具体的には、DiffSteISRは、温度アダプタ(TASCATA)を用いてタイムアウェアなステレオクロスアテンションを実装し、生成した左右ビューが高いテクスチャ一貫性を示すことを保証することにより、超解像と地上真実(GT)画像との相違誤差を低減する。
さらに、画素、知覚、分布空間におけるGT画像との超解像の整合性を高めるために、ステレオオムニアテンション制御ネットワーク(SOA ControlNet)を提案する。
最後に、DiffSteISRはステレオセマンティック抽出器(SSE)を導入し、ユニークな視点のソフトセマンティック情報を取得し、ハードタグセマンティック情報を共有することにより、生成した左右画像の意味精度と一貫性を効果的に向上する。
DiffSteISRは低解像度ステレオ画像から自然的・精密なテクスチャを正確に再構築し, 左右のビュー間のセマンティックスとテクスチャの整合性を維持した。
関連論文リスト
- Reconstructive Visual Instruction Tuning [64.91373889600136]
リコンストラクティブ・ビジュアル・インストラクション・チューニング(ROSS)は、視覚中心の監視信号を利用する大型マルチモーダル・モデル(LMM)のファミリーである。
入力画像の潜在表現を再構成し、正確なRGB値を直接回帰するのを避ける。
経験的に、ROSSは、異なるビジュアルエンコーダと言語モデルに対して、一貫して大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-12T15:54:29Z) - WTCL-Dehaze: Rethinking Real-world Image Dehazing via Wavelet Transform and Contrastive Learning [17.129068060454255]
自律運転や監視といったアプリケーションには、単一イメージのデハジングが不可欠だ。
コントラスト損失と離散ウェーブレット変換を統合した半教師付きデハージングネットワークを提案する。
提案アルゴリズムは,最先端の単一画像復調法と比較して,優れた性能とロバスト性を実現している。
論文 参考訳(メタデータ) (2024-10-07T05:36:11Z) - Self-Adaptive Reality-Guided Diffusion for Artifact-Free Super-Resolution [47.29558685384506]
アーティファクトフリー・スーパーレゾリューション(SR)は、低解像度画像を、オリジナルコンテンツの厳密な整合性のある高解像度画像に変換することを目的としている。
従来の拡散型SR技術は反復的な手順でアーティファクトを導入する傾向にある。
本稿では,自己適応型現実誘導拡散(Self-Adaptive Reality-Guided Diffusion)を提案する。
論文 参考訳(メタデータ) (2024-03-25T11:29:19Z) - Toward Real World Stereo Image Super-Resolution via Hybrid Degradation
Model and Discriminator for Implied Stereo Image Information [10.957275128743529]
実世界のステレオ画像の超解像はコンピュータビジョンシステムの性能向上に大きな影響を与えている。
ステレオ画像を改善するために, 単一像超解像の既存の方法を適用することができる。
本稿では,暗黙的ステレオ情報判別器とハイブリッド劣化モデルを組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T07:24:50Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Enhancing Low-Light Images in Real World via Cross-Image Disentanglement [58.754943762945864]
そこで本研究では,現実の汚職とミスアライメントされたトレーニング画像からなる,新しい低照度画像強調データセットを提案する。
本モデルでは,新たに提案したデータセットと,他の一般的な低照度データセットの両方に対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-01-10T03:12:52Z) - TWIST-GAN: Towards Wavelet Transform and Transferred GAN for
Spatio-Temporal Single Image Super Resolution [4.622977798361014]
単一画像スーパーレゾリューション(sisr)は、空間解像度の低いリモートセンシング画像から、微細な空間解像度を持つ高解像度画像を生成する。
深層学習とGAN(Generative Adversarial Network)は、単一画像超解像(SISR)の課題を突破した。
論文 参考訳(メタデータ) (2021-04-20T22:12:38Z) - Frequency Consistent Adaptation for Real World Super Resolution [64.91914552787668]
実シーンにスーパーリゾリューション(SR)法を適用する際に周波数領域の整合性を保証する新しい周波数一貫性適応(FCA)を提案する。
監視されていない画像から劣化カーネルを推定し、対応するLow-Resolution (LR)画像を生成する。
ドメイン一貫性のあるLR-HRペアに基づいて、容易に実装可能な畳み込みニューラルネットワーク(CNN)SRモデルを訓練する。
論文 参考訳(メタデータ) (2020-12-18T08:25:39Z) - Hyperspectral Image Super-resolution via Deep Progressive Zero-centric
Residual Learning [62.52242684874278]
空間情報とスペクトル情報の相互モダリティ分布が問題となる。
本稿では,PZRes-Netという,新しいテクスライトウェイトなディープニューラルネットワークベースのフレームワークを提案する。
本フレームワークは,高分解能かつテクテッセロ中心の残像を学習し,シーンの空間的詳細を高頻度で表現する。
論文 参考訳(メタデータ) (2020-06-18T06:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。