論文の概要: Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images
- arxiv url: http://arxiv.org/abs/2504.09621v1
- Date: Sun, 13 Apr 2025 15:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:57.602658
- Title: Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images
- Title(参考訳): 画像パッチのトークン化:大規模画像における効果的なヘイズ除去のためのグローバルコンテキストフュージョン
- Authors: Jiuchen Chen, Xinyu Yan, Qizhi Xu, Kaiqi Li,
- Abstract要約: DehazeXLは、グローバルコンテキストとローカル特徴抽出のバランスをとるヘイズ除去手法である。
画像は最大10240$times$10240ピクセルまで推論でき、メモリは21GBしかない。
- 参考スコア(独自算出の注目度): 3.143633585539222
- License:
- Abstract: Global contextual information and local detail features are essential for haze removal tasks. Deep learning models perform well on small, low-resolution images, but they encounter difficulties with large, high-resolution ones due to GPU memory limitations. As a compromise, they often resort to image slicing or downsampling. The former diminishes global information, while the latter discards high-frequency details. To address these challenges, we propose DehazeXL, a haze removal method that effectively balances global context and local feature extraction, enabling end-to-end modeling of large images on mainstream GPU hardware. Additionally, to evaluate the efficiency of global context utilization in haze removal performance, we design a visual attribution method tailored to the characteristics of haze removal tasks. Finally, recognizing the lack of benchmark datasets for haze removal in large images, we have developed an ultra-high-resolution haze removal dataset (8KDehaze) to support model training and testing. It includes 10000 pairs of clear and hazy remote sensing images, each sized at 8192 $\times$ 8192 pixels. Extensive experiments demonstrate that DehazeXL can infer images up to 10240 $\times$ 10240 pixels with only 21 GB of memory, achieving state-of-the-art results among all evaluated methods. The source code and experimental dataset are available at https://github.com/CastleChen339/DehazeXL.
- Abstract(参考訳): グローバルな文脈情報と局所的な詳細機能は、ヘイズ除去タスクに不可欠である。
ディープラーニングモデルは、小さくて低解像度の画像ではうまく機能するが、GPUメモリの制限により、大きな高解像度の画像では困難に直面する。
妥協として、彼らはしばしばイメージスライスやダウンサンプリングに頼っている。
前者はグローバル情報を減らし、後者は高周波の詳細を破棄する。
これらの課題に対処するために,グローバルコンテキストと局所特徴抽出を効果的にバランスさせるヘイズ除去手法であるDehazeXLを提案する。
さらに, ヘイズ除去性能のグローバルな文脈利用効率を評価するために, ヘイズ除去タスクの特徴に合わせた視覚的帰属手法を設計する。
最後に,大規模画像におけるヘイズ除去のためのベンチマークデータセットの欠如を認識し,モデルトレーニングとテストをサポートする超高解像度ヘイズ除去データセット (8KDehaze) を開発した。
解像度は8192ドル(約8万2000円)。
大規模な実験により、DehazeXLはイメージを最大10240$\times$10240ピクセルまで推論でき、21GBのメモリしか持たない。
ソースコードと実験データセットはhttps://github.com/CastleChen339/DehazeXLで公開されている。
関連論文リスト
- Large-Scale Data-Free Knowledge Distillation for ImageNet via Multi-Resolution Data Generation [53.95204595640208]
Data-Free Knowledge Distillation (DFKD)は、教師モデルから生徒モデルへの知識伝達を可能にする高度な技術である。
従来のアプローチでは、実際の画像の情報を活用することなく、高解像度で合成画像を生成してきた。
MUSEは、クラスアクティベーションマップ(CAM)を使用して、低い解像度で画像を生成し、生成された画像が重要なクラス固有の特徴を保持することを保証する。
論文 参考訳(メタデータ) (2024-11-26T02:23:31Z) - HRDecoder: High-Resolution Decoder Network for Fundus Image Lesion Segmentation [12.606794661369959]
骨盤病変分割のための簡易高分解能デコーダネットワークHRDecoderを提案する。
高精細な局所的特徴を捉えるための高精細な表現学習モジュールと、マルチスケールの予測を融合する高精細な融合モジュールを統合している。
本手法は, 適正なメモリと計算オーバーヘッドを消費し, 推論速度の満足度を維持しながら, 足底部病変の全体的なセグメンテーション精度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-11-06T15:13:31Z) - RSHazeDiff: A Unified Fourier-aware Diffusion Model for Remote Sensing Image Dehazing [32.16602874389847]
Hazeはリモートセンシング画像の視覚的品質を著しく低下させる。
本稿では,RSHazeDiffと呼ばれるリモートセンシング画像デハージングのための新しいFourier-aware拡散モデルを提案する。
合成および実世界のベンチマークの実験は、最先端の手法よりもRSHazeDiffの好ましい性能を検証する。
論文 参考訳(メタデータ) (2024-05-15T04:22:27Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - High-Resolution Image Inpainting with Iterative Confidence Feedback and
Guided Upsampling [122.06593036862611]
既存の画像塗装法は、実アプリケーションで大きな穴を扱う際に、しばしばアーティファクトを生成する。
本稿では,フィードバック機構を備えた反復インペイント手法を提案する。
実験により,本手法は定量評価と定性評価の両方において既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-05-24T13:23:45Z) - Contextual Residual Aggregation for Ultra High-Resolution Image
Inpainting [12.839962012888199]
そこで本稿では,CRA(Contextual Residual Aggregation)機構を提案する。
CRA機構は、コンテキストパッチからの残基の重み付けにより、欠落した内容に対して高周波残基を生成する。
提案手法は,解像度512×512の小型画像に対して学習し,高解像度画像に対する推論を行い,良好な塗装品質を実現する。
論文 参考訳(メタデータ) (2020-05-19T18:55:32Z) - ImagePairs: Realistic Super Resolution Dataset via Beam Splitter Camera
Rig [13.925480922578869]
実画像データセットを収集するための新しいデータ取得手法を提案する。
我々はビームスプリッターを用いて、低解像度カメラと高解像度カメラで同じシーンを撮影する。
これらのタスクに使用される現在の小規模データセットとは異なり、提案データセットは11,421対の低解像度高解像度画像を含んでいる。
論文 参考訳(メタデータ) (2020-04-18T03:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。