論文の概要: Ship in Sight: Diffusion Models for Ship-Image Super Resolution
- arxiv url: http://arxiv.org/abs/2403.18370v2
- Date: Tue, 21 May 2024 16:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 18:12:24.577549
- Title: Ship in Sight: Diffusion Models for Ship-Image Super Resolution
- Title(参考訳): 船の視界:船画像超解像のための拡散モデル
- Authors: Luigi Sigillo, Riccardo Fosco Gramaccioni, Alessandro Nicolosi, Danilo Comminiello,
- Abstract要約: 本稿では,クラス認識中にテキストコンディショニングを利用する拡散モデルに基づくアーキテクチャを提案する。
ShipSpottingfootnoteurlwww.shipspotting.comのWebサイトから、オンラインの船画像から抽出された大きなラベル付き船のデータセットも紹介します。
提案手法は, 従来の超解像に用いた他の深層学習モデルよりも頑健な結果が得られる。
- 参考スコア(独自算出の注目度): 45.618404722764694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, remarkable advancements have been achieved in the field of image generation, primarily driven by the escalating demand for high-quality outcomes across various image generation subtasks, such as inpainting, denoising, and super resolution. A major effort is devoted to exploring the application of super-resolution techniques to enhance the quality of low-resolution images. In this context, our method explores in depth the problem of ship image super resolution, which is crucial for coastal and port surveillance. We investigate the opportunity given by the growing interest in text-to-image diffusion models, taking advantage of the prior knowledge that such foundation models have already learned. In particular, we present a diffusion-model-based architecture that leverages text conditioning during training while being class-aware, to best preserve the crucial details of the ships during the generation of the super-resoluted image. Since the specificity of this task and the scarcity availability of off-the-shelf data, we also introduce a large labeled ship dataset scraped from online ship images, mostly from ShipSpotting\footnote{\url{www.shipspotting.com}} website. Our method achieves more robust results than other deep learning models previously employed for super resolution, as proven by the multiple experiments performed. Moreover, we investigate how this model can benefit downstream tasks, such as classification and object detection, thus emphasizing practical implementation in a real-world scenario. Experimental results show flexibility, reliability, and impressive performance of the proposed framework over state-of-the-art methods for different tasks. The code is available at: https://github.com/LuigiSigillo/ShipinSight .
- Abstract(参考訳): 近年, 画像生成分野における顕著な進歩は, 画像生成サブタスクにおいて, インペイント, デノナイジング, スーパーレゾリューションなど, 高品質な結果の需要が増大していることに起因している。
低解像度画像の品質を高めるための超解像技術の適用を探求するために、大きな努力が注がれている。
そこで本研究では,沿岸・港湾監視において重要な船舶画像の超解像問題について深く検討する。
本稿では,テキスト・ツー・イメージ拡散モデルへの関心の高まりにともなう機会について検討する。
特に,超解像生成時の船舶の重要詳細を最良に保存するために,授業中にテキストコンディショニングを利用する拡散モデルに基づくアーキテクチャを提案する。
このタスクの特異性とオフザシェルフデータの不足のため、オンラインの船画像から抽出された大きなラベル付き船のデータセットも紹介する。
提案手法は,複数の実験によって実証されたように,従来の超解法に使用される他の深層学習モデルよりも頑健な結果が得られる。
さらに、本モデルが、分類やオブジェクト検出などの下流タスクにどのような効果をもたらすかを考察し、現実のシナリオにおける実践的実装を強調した。
実験の結果,様々なタスクに対する最先端手法に対するフレームワークの柔軟性,信頼性,印象的な性能が示された。
コードは、https://github.com/LuigiSigillo/ShipinSight で入手できる。
関連論文リスト
- Large-Scale Data-Free Knowledge Distillation for ImageNet via Multi-Resolution Data Generation [53.95204595640208]
Data-Free Knowledge Distillation (DFKD)は、教師モデルから生徒モデルへの知識伝達を可能にする高度な技術である。
従来のアプローチでは、実際の画像の情報を活用することなく、高解像度で合成画像を生成してきた。
MUSEは、クラスアクティベーションマップ(CAM)を使用して、低い解像度で画像を生成し、生成された画像が重要なクラス固有の特徴を保持することを保証する。
論文 参考訳(メタデータ) (2024-11-26T02:23:31Z) - DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。
既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Flow Matching in Latent Space [2.9330609943398525]
フローマッチングは、印象的な経験的パフォーマンスを示す生成モデルをトレーニングするフレームワークである。
本稿では,事前学習されたオートエンコーダの潜時空間にフローマッチングを適用し,計算効率を向上させることを提案する。
我々の研究は、条件生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。
論文 参考訳(メタデータ) (2023-07-17T17:57:56Z) - Adaptive Uncertainty Distribution in Deep Learning for Unsupervised
Underwater Image Enhancement [1.9249287163937976]
ディープラーニングベースの水中画像強化における大きな課題の1つは、高品質なトレーニングデータの可用性の制限である。
本研究では、条件付き変分オートエンコーダ(cVAE)を用いて、深層学習モデルのトレーニングを行う、新しい教師なし水中画像強調フレームワークを提案する。
提案手法は, 定量化と定性化の両面において, 他の最先端手法と比較して, 競争性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-18T01:07:20Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Image Completion via Inference in Deep Generative Models [16.99337751292915]
画像生成モデルにおける償却推論の観点から画像完成を検討する。
CIFAR-10およびFFHQ-256データセットの先行技術と比較して、優れたサンプル品質と多様性を示します。
論文 参考訳(メタデータ) (2021-02-24T02:59:43Z) - Unsupervised Real Image Super-Resolution via Generative Variational
AutoEncoder [47.53609520395504]
古典的な例に基づく画像超解法を再考し、知覚的画像超解法のための新しい生成モデルを考案する。
本稿では,変分オートエンコーダを用いた共同画像デノベーションと超解像モデルを提案する。
判別器の助けを借りて、超分解能サブネットワークのオーバーヘッドを加味して、分解された画像をフォトリアリスティックな視覚的品質で超解凍する。
論文 参考訳(メタデータ) (2020-04-27T13:49:36Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。