論文の概要: Prompt-based test-time real image dehazing: a novel pipeline
- arxiv url: http://arxiv.org/abs/2309.17389v4
- Date: Mon, 27 Nov 2023 10:46:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 11:48:06.203561
- Title: Prompt-based test-time real image dehazing: a novel pipeline
- Title(参考訳): プロンプトベースのテスト時間実画像デハジング:新しいパイプライン
- Authors: Zixuan Chen, Zewei He, Ziqian Lu, Xuecheng Sun, Zhe-Ming Lu
- Abstract要約: 本稿では,プロンプトをベースとしたテストタイム・デハージング(PTTD)について述べる。
PTTDは、合成データに基づいてトレーニングされたデハージングモデルを用いて、領域ギャップを狭め、実際の画像デハージングの性能を高めることができることを実験的に見出した。
- 参考スコア(独自算出の注目度): 9.90146712189936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods attempt to improve models' generalization ability on
real-world hazy images by exploring well-designed training schemes (e.g.,
CycleGAN, prior loss). However, most of them need very complicated training
procedures to achieve satisfactory results. In this work, we present a totally
novel testing pipeline called Prompt-based Test-Time Dehazing (PTTD) to help
generate visually pleasing results of real-captured hazy images during the
inference phase. We experimentally find that given a dehazing model trained on
synthetic data, by fine-tuning the statistics (i.e., mean and standard
deviation) of encoding features, PTTD is able to narrow the domain gap,
boosting the performance of real image dehazing. Accordingly, we first apply a
prompt generation module (PGM) to generate a visual prompt, which is the source
of appropriate statistical perturbations for mean and standard deviation. And
then, we employ the feature adaptation module (FAM) into the existing dehazing
models for adjusting the original statistics with the guidance of the generated
prompt. Note that, PTTD is model-agnostic and can be equipped with various
state-of-the-art dehazing models trained on synthetic hazy-clean pairs.
Extensive experimental results demonstrate that our PTTD is flexible meanwhile
achieves superior performance against state-of-the-art dehazing methods in
real-world scenarios. The source code of our PTTD will be made available at
https://github.com/cecret3350/PTTD-Dehazing.
- Abstract(参考訳): 既存の手法は、よく設計されたトレーニングスキーム(例えば、CycleGAN、事前損失)を探索することで、実世界のハジー画像におけるモデルの一般化能力を向上しようとする。
しかし、そのほとんどは満足な結果を得るために非常に複雑な訓練手順が必要である。
そこで本研究では,提案手法を用いたプロンプトベーステストタイムデハジング(pttd)と呼ばれる全く新しいテストパイプラインを提案する。
PTTDは、合成データに基づいて訓練された復調モデルを用いて、符号化機能の統計(平均偏差と標準偏差)を微調整することにより、領域ギャップを狭め、実画像の復調性能を高めることができることを実験的に見出した。
そこで我々はまず,平均および標準偏差に対する適切な統計的摂動の源である視覚的プロンプトを生成するために,プロンプト生成モジュール(PGM)を適用した。
そして,既存のデハージングモデルに特徴適応モジュール(FAM)を用いて,生成したプロンプトのガイダンスを用いて,元の統計量を調整する。
なお、PTTDはモデル非依存であり、合成ヘイズクリーンペアで訓練された様々な最先端の脱ハージングモデルを備えることができる。
PTTDは現実のシナリオにおける最先端の脱ハージング手法に対して優れた性能を達成可能であることを示す。
PTTDのソースコードはhttps://github.com/cecret3350/PTTD-Dehazing.comで公開されます。
関連論文リスト
- Fine Tuning Text-to-Image Diffusion Models for Correcting Anomalous Images [0.0]
本研究では,DreamBooth法を用いて安定拡散3モデルを微調整することにより,このような問題を緩和する手法を提案する。
SSIM(Structure similarity Index)、Pak Signal-to-Noise Ratio(PSNR)、Frechet Inception Distance(FID)など、視覚的評価の精度向上を示す。
論文 参考訳(メタデータ) (2024-09-23T00:51:47Z) - AssemAI: Interpretable Image-Based Anomaly Detection for Manufacturing Pipelines [0.0]
製造パイプラインにおける異常検出は、産業環境の複雑さと変動性によって強化され、依然として重要な課題である。
本稿では,スマート製造パイプラインに適した解釈可能な画像ベース異常検出システムAssemAIを紹介する。
論文 参考訳(メタデータ) (2024-08-05T01:50:09Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - HazeCLIP: Towards Language Guided Real-World Image Dehazing [62.4454483961341]
既存の手法は、特に合成データセットにおいて、単一画像のデハージングにおいて顕著な性能を達成した。
本稿では,事前学習型デハジングネットワークの性能向上を目的とした言語誘導適応フレームワークHazeCLIPを紹介する。
論文 参考訳(メタデータ) (2024-07-18T17:18:25Z) - Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。
FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。
限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文 参考訳(メタデータ) (2024-03-27T02:24:00Z) - Fine Structure-Aware Sampling: A New Sampling Training Scheme for Pixel-Aligned Implicit Models in Single-View Human Reconstruction [98.30014795224432]
本研究では,単一視点の人物再構成のための暗黙的画素アライメントモデルをトレーニングするために,FSS(Final Structured-Aware Sampling)を導入する。
FSSは表面の厚さと複雑さに積極的に適応する。
また、画素アライメント型暗黙的モデルのためのメッシュ厚み損失信号を提案する。
論文 参考訳(メタデータ) (2024-02-29T14:26:46Z) - Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation [14.71883381837561]
ドメイン間の分散シフトは、実世界のアプリケーションに事前訓練されたセマンティックセグメンテーションモデルをデプロイする上で重要な障害である。
テスト時間適応は、推論中にドメイン間の分布シフトに取り組むのに有効であることが証明されている。
本稿では,各テスト画像に対する特定のプロンプトをトレーニングし,バッチ正規化レイヤの統計値を調整するために,Visual Prompt-based Test-Time Adaptation (VPTTA)法を提案する。
論文 参考訳(メタデータ) (2023-11-30T09:03:47Z) - Efficient Test-Time Adaptation for Super-Resolution with Second-Order
Degradation and Reconstruction [62.955327005837475]
画像超解像(SR)は,低分解能(LR)から高分解能(HR)へのマッピングを,一対のHR-LRトレーニング画像を用いて学習することを目的としている。
SRTTAと呼ばれるSRの効率的なテスト時間適応フレームワークを提案し、SRモデルを異なる/未知の劣化型でテストドメインに迅速に適応させることができる。
論文 参考訳(メタデータ) (2023-10-29T13:58:57Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Score-based diffusion models for accelerated MRI [35.3148116010546]
本研究では,画像中の逆問題を容易に解けるような条件分布からデータをサンプリングする方法を提案する。
我々のモデルは、訓練のためにのみ等級画像を必要とするが、複雑な値のデータを再構成することができ、さらに並列画像まで拡張できる。
論文 参考訳(メタデータ) (2021-10-08T08:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。