論文の概要: UniV2D: Bridging Visual Restoration and Semantic Perception for Underwater Salient Object Detection
- arxiv url: http://arxiv.org/abs/2605.07146v1
- Date: Fri, 08 May 2026 02:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.749721
- Title: UniV2D: Bridging Visual Restoration and Semantic Perception for Underwater Salient Object Detection
- Title(参考訳): UniV2D:水中の視覚的復元とセマンティック・パーセプション
- Authors: Laibin Chang, Shaodong Wang, Yunke Wang, Xu Zhang, Kui Jiang, Chang Xu, Bo Du,
- Abstract要約: 視覚的回復と有能な物体検出を協調的に最適化するUnified Vision-to-Detection Network (UniV2D)を提案する。
UniV2Dは、セマンティック駆動学習パラダイムを導入している。
定量評価と定性評価の両方において最先端の手法を著しく上回る。
- 参考スコア(独自算出の注目度): 71.83097731030254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Underwater salient object detection (USOD) plays a vital role in marine vision tasks but remains fundamentally challenging due to severe visual degradation, such as selective absorption and medium scattering. Conventional pipelines typically adopt a sequential "enhance-then-detect" paradigm. However, isolating low-level visual restoration from high-level semantic perception often leads to semantic inconsistency, where the restored images may not be optimal for detection and can even introduce task-irrelevant noise. To break this sequential bottleneck, we propose UniV2D, a Unified Vision-to-Detection Network that jointly optimizes visual restoration and salient object detection within a mutually beneficial framework. Unlike traditional methods that rely on disjointed pipelines or rigid physical priors, UniV2D introduces a semantic-driven learning paradigm: high-level saliency semantics actively guide the restoration process, while the restored visual cues reciprocally enhance saliency perception. Specifically, UniV2D features a hierarchical dual-branch architecture. It first employs a self-calibrated decoder to predict initial saliency masks alongside a mask-aware restoration module to reconstruct image content. Subsequently, a saliency-guided refinement module equipped with cross-level modulation is utilized to align structural fidelity with semantic consistency. Extensive experiments across multiple benchmarks demonstrate that UniV2D significantly outperforms state-of-the-art methods in both quantitative and qualitative evaluations, establishing a new standard for joint underwater perception.
- Abstract(参考訳): 水中の塩分物検出(USOD)は、海洋視覚タスクにおいて重要な役割を担っているが、選択的吸収や媒体散乱といった深刻な視覚的劣化のため、基本的には困難である。
従来のパイプラインは通常、シーケンシャルな"エンハンス・タン・ディテクト"パラダイムを採用しています。
しかし、高レベルな意味知覚から低レベルな視覚的復元を分離することは、しばしば意味的不整合をもたらす。
このシーケンシャルなボトルネックを解消するために、相互に有利なフレームワーク内で視覚的復元と有能な物体検出を共同で最適化するUniV2Dを提案する。
分離されたパイプラインや厳密な物理的事前に依存する従来の方法とは異なり、UniV2Dは意味駆動型学習パラダイムを導入している。
特にUniV2Dは階層的なデュアルブランチアーキテクチャを備えている。
最初は自己校正デコーダを使用して、マスクを意識した復元モジュールとともに初期の唾液マスクを予測し、画像内容を再構成する。
その後、クロスレベル変調を備えたサリエンシ誘導精製モジュールを用いて、構造的忠実度とセマンティック一貫性を整合させる。
複数のベンチマークにわたる大規模な実験により、UniV2Dは定量評価と定性評価の両方において最先端の手法を著しく上回り、共同水中知覚の新しい標準を確立した。
関連論文リスト
- FS-I2P:A Hierarchical Focus-Sweep Registration Network with Dynamically Allocated Depth [23.96591843663943]
イメージ・ツー・ポイント・クラウドの登録は、視点の変化、横断的な相違、反復的なテクスチャによってしばしば挑戦される。
近年, マルチスケール特徴とトランスフォーマーに基づくインタラクションを利用して, 検出不要な手法によりこの問題を緩和している。
人間の行動に触発され,多段階のクロスモーダル特徴関連性を高めるためのFocus-Sweep'のパラダイムを提案する。
論文 参考訳(メタデータ) (2026-05-08T11:33:18Z) - Beyond Reconstruction: Reconstruction-to-Vector Diffusion for Hyperspectral Anomaly Detection [9.078979356836193]
ハイパースペクトル異常検出(HAD)は、複雑なシーンにおけるスパースターゲットの同定に優れる。
既存のモデルは、スカラー・アズ・ア・エンドポイント(reconstruction-as-endpoint)パラダイムに閉じ込められているままである。
本稿では, 精製源として再構成を再定義するリコンストラクション・トゥ・ディフュージョン(R2VD)を提案する。
R2VDは新たな最先端技術を確立し、例外的な目標検出のバックグラウンドを提供する。
論文 参考訳(メタデータ) (2026-04-13T12:31:50Z) - V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising [65.5867130156805]
統合JTフレームワークにおける視覚的コデノゲーションの体系的研究であるV-Coについて述べる。
本研究は,視覚的コデノジングを効果的に行うための4つの重要な要素を明らかにする。
V-Coは、基礎となる画素空間拡散ベースラインと強い前の画素拡散法より優れている。
論文 参考訳(メタデータ) (2026-03-17T17:01:54Z) - Supervised Contrastive Machine Unlearning of Background Bias in Sonar Image Classification with Fine-Grained Explainable AI [1.4610038284393168]
音響ソナー画像解析は、物体の検出と分類において重要な役割を果たす。
高精度を実現する既存のAIモデルは、しばしば海底の特徴に過度に依存し、一般化が不十分になる。
i) 海底による背景バイアスを低減するために従来の三重項損失を拡大するTCUモジュール,(ii) 浮き彫りソナーフレームワーク(UESF) という2つの重要なモジュールを統合した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-01T05:25:34Z) - Blur-Robust Detection via Feature Restoration: An End-to-End Framework for Prior-Guided Infrared UAV Target Detection [29.207964743160968]
赤外線無人航空機(UAV)の標的画像は、しばしば動きのぼやけた劣化に悩まされる。
本稿では,JFD3 と呼ばれる新しい特徴ドメインのデブロアリングとエンドツーエンドのフレームワークを提案する。
IRBlurUAV実験により、JFD3は実時間効率を維持しながら優れた検出性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-18T11:27:15Z) - Semantic Discrepancy-aware Detector for Image Forgery Identification [21.695863229449742]
偽造概念空間と意味概念空間のミスアライメントは、モデルの偽造検出性能を妨げる。
本稿では,再現学習を利用して2つの空間をきめ細かな視覚レベルで整列させるセマンティック離散性認識検出器(SDD)を提案する。
視覚的意味論的概念と偽トレースとの相互作用を強化するために,視覚的再構成パラダイムに基づく概念レベルの偽差学習モジュールを提案する。
論文 参考訳(メタデータ) (2025-08-17T12:11:09Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Exploring Resolution and Degradation Clues as Self-supervised Signal for
Low Quality Object Detection [77.3530907443279]
劣化した低解像度画像中の物体を検出するための,新しい自己教師型フレームワークを提案する。
本手法は, 既存手法と比較して, 異変劣化状況に直面する場合に比べ, 優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-05T09:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。