論文の概要: Towards Optimal Aggregation of Varying Range Dependencies in Haze Removal
- arxiv url: http://arxiv.org/abs/2408.12317v2
- Date: Mon, 10 Mar 2025 01:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:43.751294
- Title: Towards Optimal Aggregation of Varying Range Dependencies in Haze Removal
- Title(参考訳): ヘイズ除去における可変範囲依存性の最適集約に向けて
- Authors: Xiaozhe Zhang, Fengying Xie, Haidong Ding, Linpeng Pan, Zhenwei Shi,
- Abstract要約: ヘイズ除去は、ぼんやりとした入力から明確なイメージを復元することを目的としている。
既存の手法は、局所的な詳細保存のための短距離依存か、グローバルな文脈モデリングのための長距離依存のいずれかをキャプチャすることで、有意義な有効性を示している。
bfDehazeMaticは,2経路設計により短距離および長距離の依存関係を捕捉し,修復を改善する。
- 参考スコア(独自算出の注目度): 17.29370328189668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Haze removal aims to restore a clear image from a hazy input. Existing methods have shown significant efficacy by capturing either short-range dependencies for local detail preservation or long-range dependencies for global context modeling. Given the complementary strengths of both approaches, a intuitive advancement is to explicitly integrate them into a unified framework. However, this potential remains underexplored in current research. In this paper, we propose \textbf{DehazeMatic}, which leverages the proposed Transformer-Mamba Dual Aggregation block to simultaneously and explicitly captures both short- and long-range dependencies through dual-path design for improved restoration. To ensure that dependencies at varying ranges contribute optimally to performance, we conduct extensive experiments to identify key influencing factors and determine that an effective aggregation mechanism should be guided by the joint consideration of haze density and semantic information. Building on these insights, we introduce the CLIP-enhanced Dual-path Aggregator, which utilizes the rich semantic priors encapsulated in CLIP and the estimated haze density map, derived from its powerful generalization ability, to instruct the aggregation process. Extensive experiments demonstrate that DehazeMatic outperforms sort-of-the-art methods across various benchmarks.
- Abstract(参考訳): ヘイズ除去は、ぼんやりとした入力から明確なイメージを復元することを目的としている。
既存の手法は、局所的な詳細保存のための短距離依存か、グローバルな文脈モデリングのための長距離依存のいずれかをキャプチャすることで、有意義な有効性を示している。
両方のアプローチの相補的な長所を考えると、直感的な進歩はそれらを統合されたフレームワークに明示的に統合することである。
しかし、この可能性は現在の研究では未解明のままである。
本稿では,Transformer-Mamba Dual Aggregationブロックを併用して,2経路設計による短距離・短距離両方の依存関係を同時かつ明示的に捕捉し,修復を改善する方法を提案する。
様々な範囲の依存関係が性能に最適に寄与することを保証するため、我々は、重要な影響要因を特定するための広範な実験を行い、有効凝集機構は、ヘイズ密度とセマンティック情報の協調的考察によって導かれるべきであると判断する。
これらの知見に基づいて,CLIPにカプセル化されたリッチなセマンティック先行情報と,その強力な一般化能力から推定されたヘイズ密度マップを利用して,集約プロセスの指導を行うCLIP拡張Dual-path Aggregatorを導入する。
大規模な実験により、DehazeMaticは様々なベンチマークで最先端の手法より優れていることが示された。
関連論文リスト
- Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - Attention with Dependency Parsing Augmentation for Fine-Grained Attribution [26.603281615221505]
提案手法は,検索した文書から各回答に対する証拠を裏付ける,きめ細かな属性機構を開発する。
既存の属性法は、応答と文書間のモデル-内部類似度(Saliency scores)や隠れ状態類似度(hidden state similarity)など)に依存している。
まず,表現の粒度を保ちつつ,集合ユニオン操作を通じてトークンに関する証拠を集約する。
第二に、ターゲットスパンの意味的完全性を強化するために依存性解析を統合することで属性の強化を行う。
論文 参考訳(メタデータ) (2024-12-16T03:12:13Z) - Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images [16.0258685984844]
継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。
本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,イメージレベルの知覚を対象とするマルチタスク共同学習を利用した統合型連続学習モデルを提案する。
論文 参考訳(メタデータ) (2024-07-19T12:22:32Z) - Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models [0.0]
本稿では,従来のCLIP手法の制約を克服する革新的なフレームワークであるCascadeVLMを紹介する。
様々なきめ細かい画像データセットに対する実験により、CascadeVLMは既存のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-05-18T14:12:04Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [16.69453837626083]
本稿では,Multimodal Sentiment Analysis (MSA)タスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。
本稿では, クロスサンプル相関を含む包括的知識を伝達し, 欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。
我々は,学生ネットワークの感情決定境界を最適化するために,応答不整合蒸留方式を設計する。
論文 参考訳(メタデータ) (2024-04-25T09:35:09Z) - Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Dual-Context Aggregation for Universal Image Matting [16.59886660634162]
我々は、Dual-Context Aggregation Matting (DCAM)という、シンプルで普遍的なマッチングフレームワークを提案する。
特に、DCAMは、まずセマンティックバックボーンネットワークを採用し、入力画像とガイダンスから低レベル特徴とコンテキスト特徴を抽出する。
グローバルな輪郭セグメンテーションと地域境界の洗練を両立させることにより、DCAMは様々な種類のガイダンスやオブジェクトに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-28T06:56:24Z) - S$^2$ME: Spatial-Spectral Mutual Teaching and Ensemble Learning for
Scribble-supervised Polyp Segmentation [21.208071679259604]
本研究では,空間スペクトルデュアルブランチ相互指導とエントロピー誘導擬似ラベルアンサンブル学習の枠組みを開発する。
我々は、アンサンブル学習の有効性を高めるために、信頼度の高い混合擬似ラベルを作成する。
疑似ラベルに存在する不確実性やノイズの有害な影響を効果的に軽減する。
論文 参考訳(メタデータ) (2023-06-01T08:47:58Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - One-Shot Adaptation of GAN in Just One CLIP [51.188396199083336]
本稿では,CLIP空間を統一した単一ショットGAN適応方式を提案する。
具体的には、CLIP誘導潜在最適化を用いて、ソースジェネレータ内の参照画像検索という2段階のトレーニング戦略を採用する。
対象のテクスチャで多様な出力を生成し,質的かつ定量的にベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T13:03:06Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense
Predictions without Cost [36.27226683586425]
The semantic structure aware inference (SSA) was proposed to explore the semantic structure information hidden in different stage of the CNN-based network to generate high-quality CAM in the model inference。
提案手法はパラメータを含まない利点があり,訓練は不要である。したがって,弱教師付き画素ワイド予測タスクにも適用可能である。
論文 参考訳(メタデータ) (2021-11-05T11:07:21Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - Cross-Supervised Joint-Event-Extraction with Heterogeneous Information
Networks [61.950353376870154]
Joint-event- Extractは、トリガとエンティティのタグからなるタグセットを備えたシーケンスからシーケンスまでのラベリングタスクである。
トリガやエンティティの抽出を交互に監督するクロススーパーバイザードメカニズム(CSM)を提案する。
我々の手法は、エンティティとトリガー抽出の両方において最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-10-13T11:51:17Z) - An unsupervised deep learning framework via integrated optimization of
representation learning and GMM-based modeling [31.334196673143257]
本稿では,ディープ表現とGMMに基づくディープモデリングの両面において,共同学習の新たな原則を提案する。
類似分野の既存の作業と比較すると、目的関数は2つの学習目標を持ち、共同で最適化されるように作成される。
クラスタ間距離を小さくすることでクラスタのコンパクト性を著しく向上し、クラスタ間距離を増大させることで分離性を向上させる。
論文 参考訳(メタデータ) (2020-09-11T04:57:03Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Generalized Adversarially Learned Inference [42.40405470084505]
我々は、画像生成器とエンコーダを逆向きにトレーニングし、画像と潜時ベクトル対の2つの結合分布を一致させることにより、GAN内の潜時変数を推定する方法を開発した。
我々は、望まれるソリューションに関する事前または学習知識に基づいて、再構築、自己監督、その他の形式の監督に関する複数のフィードバック層を組み込んだ。
論文 参考訳(メタデータ) (2020-06-15T02:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。