論文の概要: From Filters to VLMs: Benchmarking Defogging Methods through Object Detection and Segmentation Performance
- arxiv url: http://arxiv.org/abs/2510.03906v1
- Date: Sat, 04 Oct 2025 19:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.335503
- Title: From Filters to VLMs: Benchmarking Defogging Methods through Object Detection and Segmentation Performance
- Title(参考訳): フィルタからVLMへ:オブジェクト検出とセグメンテーション性能によるデファッジメソッドのベンチマーク
- Authors: Ardalan Aryashad, Parsa Razmara, Amin Mahjoub, Seyedarmin Azizi, Mahdi Salmani, Arad Firouzkouhi,
- Abstract要約: 包括的なパイプラインの集合をベンチマークする構造化された経験的研究を提案する。
物体検出(mAP)とセグメンテーション(PQ, RQ, SQ)における画質と下流性能の評価を行った。
我々の分析では,デフォッギングが有効である場合,連鎖が相乗効果や劣化をもたらす場合,VLMベースのエディタが専用のアプローチとどのように比較されるかを明らかにした。
- 参考スコア(独自算出の注目度): 2.0524609401792397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving perception systems are particularly vulnerable in foggy conditions, where light scattering reduces contrast and obscures fine details critical for safe operation. While numerous defogging methods exist-from handcrafted filters to learned restoration models-improvements in image fidelity do not consistently translate into better downstream detection and segmentation. Moreover, prior evaluations often rely on synthetic data, leaving questions about real-world transferability. We present a structured empirical study that benchmarks a comprehensive set of pipelines, including (i) classical filters, (ii) modern defogging networks, (iii) chained variants (filter$\rightarrow$model, model$\rightarrow$filter), and (iv) prompt-driven visual--language image editing models (VLM) applied directly to foggy images. Using Foggy Cityscapes, we assess both image quality and downstream performance on object detection (mAP) and segmentation (PQ, RQ, SQ). Our analysis reveals when defogging helps, when chaining yields synergy or degradation, and how VLM-based editors compare to dedicated approaches. In addition, we evaluate qualitative rubric-based scores from a VLM judge and quantify their alignment with task metrics, showing strong correlations with mAP. Together, these results establish a transparent, task-oriented benchmark for defogging methods and highlight the conditions under which preprocessing genuinely improves autonomous perception in adverse weather.
- Abstract(参考訳): 自律運転認識システムは、光散乱がコントラストを減少させ、安全な操作に不可欠な細部を隠蔽する霧の環境では特に脆弱である。
手作りフィルタから学習した復元モデルまで、多くのデファジグ手法が存在するが、画像の忠実性の改善は、常に下流の検出とセグメンテーションの改善に変換されない。
さらに、事前評価は、しばしば合成データに依存し、現実世界の転送可能性に関する疑問を残している。
パイプラインの包括的集合をベンチマークする構造化された実証的研究について述べる。
(i)古典フィルタ
(II)現代のデファッギングネットワーク
(iii)鎖付き変種(filter$\rightarrow$model, model$\rightarrow$filter)および
(4) 霧画像に直接適用されるプロンプト駆動視覚言語画像編集モデル(VLM)。
Foggy Cityscapesを用いて、オブジェクト検出(mAP)とセグメンテーション(PQ、RQ、SQ)の画質と下流のパフォーマンスを評価する。
我々の分析では,デフォッギングが有効である場合,連鎖が相乗効果や劣化をもたらす場合,VLMベースのエディタが専用のアプローチとどのように比較されるかを明らかにした。
さらに, VLM判定器からの定性的ルーリックスコアを評価し, タスクメトリクスとのアライメントを定量化し, mAPと強い相関関係を示した。
これらの結果から, 異常気象における前処理が自律的知覚を真に改善する条件を明確かつタスク指向の指標として明らかにした。
関連論文リスト
- RoSe: Robust Self-supervised Stereo Matching under Adverse Weather Conditions [58.37558408672509]
本稿では,ロバストな自己監督型環境対応学習と悪天候蒸留という2つの重要なステップからなる,堅牢な自己監督型訓練パラダイムを提案する。
提案手法の有効性と汎用性を実証し,既存の最先端の自己管理手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-23T15:41:40Z) - Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment [49.36799270585947]
No-Reference Point Cloud Quality Assessment (NR-PCQA) は、歪んだ点雲の知覚的品質を、参照なしで自動的に評価することを目的としている。
我々は,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。
提案手法は,最新のPCQA手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:16:07Z) - PAME: Self-Supervised Masked Autoencoder for No-Reference Point Cloud Quality Assessment [34.256276774430575]
no-reference point cloud quality Assessment (NR-PCQA) は、参照なしでポイントクラウドの知覚的品質を自動的に予測することを目的としている。
本稿では,マスク付きオートエンコーダ(PAME)を用いた自己教師型事前学習フレームワークを提案する。
提案手法は,予測精度と一般化性の観点から,最新のNR-PCQA法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:01:33Z) - A Look at Improving Robustness in Visual-inertial SLAM by Moment
Matching [17.995121900076615]
本稿では,拡張カルマンフィルタ(EKF)がもたらす実用的意味と限界について批判的な考察を行う。
我々は,視覚-慣性計測と視覚SLAMの両方にモーメントマッチング(未開のカルマンフィルタリング)アプローチを採用する。
論文 参考訳(メタデータ) (2022-05-27T08:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。