論文の概要: A Unified Image-Dense Annotation Generation Model for Underwater Scenes
- arxiv url: http://arxiv.org/abs/2503.21771v1
- Date: Thu, 27 Mar 2025 17:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:16.034571
- Title: A Unified Image-Dense Annotation Generation Model for Underwater Scenes
- Title(参考訳): 水中シーンのための一元化画像密度アノテーション生成モデル
- Authors: Hongkai Lin, Dingkang Liang, Zhenghao Qi, Xiang Bai,
- Abstract要約: 本稿では,水中のシーンに対して,テキスト・ツー・イメージ・デンスアノテーションを統一的に生成する手法を提案する。
テキストのみを入力とし、リアルな水中画像と高度に一貫性のある複数のアノテーションを同時に生成する。
TIDEを用いて大規模な水中データセットを合成し,水中密集予測における手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 48.34534171882895
- License:
- Abstract: Underwater dense prediction, especially depth estimation and semantic segmentation, is crucial for gaining a comprehensive understanding of underwater scenes. Nevertheless, high-quality and large-scale underwater datasets with dense annotations remain scarce because of the complex environment and the exorbitant data collection costs. This paper proposes a unified Text-to-Image and DEnse annotation generation method (TIDE) for underwater scenes. It relies solely on text as input to simultaneously generate realistic underwater images and multiple highly consistent dense annotations. Specifically, we unify the generation of text-to-image and text-to-dense annotations within a single model. The Implicit Layout Sharing mechanism (ILS) and cross-modal interaction method called Time Adaptive Normalization (TAN) are introduced to jointly optimize the consistency between image and dense annotations. We synthesize a large-scale underwater dataset using TIDE to validate the effectiveness of our method in underwater dense prediction tasks. The results demonstrate that our method effectively improves the performance of existing underwater dense prediction models and mitigates the scarcity of underwater data with dense annotations. We hope our method can offer new perspectives on alleviating data scarcity issues in other fields. The code is available at https: //github.com/HongkLin/TIDE.
- Abstract(参考訳): 水中密集予測,特に深度推定とセマンティックセグメンテーションは,水中のシーンを包括的に理解するために重要である。
それでも、複雑な環境と外部データ収集コストのため、高濃度アノテーションを持つ高品質で大規模な水中データセットは依然として不足している。
本稿では,水中のシーンに対して,テキスト・ツー・イメージ・デンスアノテーションを統一的に生成する手法を提案する。
テキストのみを入力とし、リアルな水中画像と高度に一貫性のある複数のアノテーションを同時に生成する。
具体的には,テキスト・ツー・イメージとテキスト・トゥ・センスアノテーションの生成を単一モデルに統一する。
Inlicit Layout Sharing Mechanism (ILS) と Time Adaptive Normalization (TAN) と呼ばれる相互モーダル相互作用手法を導入し,画像と高密度アノテーションの一貫性を最適化する。
TIDEを用いて大規模な水中データセットを合成し,水中密集予測における手法の有効性を検証した。
以上の結果から,本手法は既存の水中密集予測モデルの性能を効果的に向上し,高濃度アノテーションによる水中データの不足を軽減できることが示唆された。
我々は,他の分野におけるデータ不足問題に対する新たな視点を提供することができることを願っている。
コードはhttps: //github.com/HongkLin/TIDEで入手できる。
関連論文リスト
- Depth-aware Volume Attention for Texture-less Stereo Matching [67.46404479356896]
実用的な屋外シナリオにおけるテクスチャ劣化に対処する軽量なボリューム改善手法を提案する。
画像テクスチャの相対的階層を抽出し,地中深度マップによって教師される深度体積を導入する。
局所的な微細構造と文脈は、体積凝集時のあいまいさと冗長性を緩和するために強調される。
論文 参考訳(メタデータ) (2024-02-14T04:07:44Z) - Atlantis: Enabling Underwater Depth Estimation with Stable Diffusion [30.122666238416716]
正確な地球深度データを用いて水中画像を生成する新しいパイプラインを提案する。
このアプローチは、水中深度推定のための教師付きモデルのトレーニングを容易にする。
我々は、特別に作成された水中、深度、テキストデータ三重項に基づいて訓練された独自のDepth2Underwater ControlNetを導入する。
論文 参考訳(メタデータ) (2023-12-19T08:56:33Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Adaptive deep learning framework for robust unsupervised underwater image enhancement [3.0516727053033392]
ディープラーニングベースの水中画像強化における大きな課題の1つは、高品質なトレーニングデータの可用性の制限である。
本研究では、条件付き変分オートエンコーダ(cVAE)を用いて、深層学習モデルのトレーニングを行う、新しい教師なし水中画像強調フレームワークを提案する。
提案手法は, 定量化と定性化の両面において, 他の最先端手法と比較して, 競争性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-18T01:07:20Z) - Urban Scene Semantic Segmentation with Low-Cost Coarse Annotation [107.72926721837726]
粗いアノテーションは、セマンティックセグメンテーションモデルをトレーニングするための、低コストで非常に効果的な代替手段である。
粗い注釈付きデータの未ラベル領域の擬似ラベルを生成する粗大な自己学習フレームワークを提案する。
提案手法は,アノテーションの予算のごく一部で完全に注釈付けされたデータに匹敵する性能が得られるため,大幅な性能向上とアノテーションのコストトレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-15T15:43:42Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Domain Adaptation for Underwater Image Enhancement via Content and Style
Separation [7.077978580799124]
水中画像は、カラーキャスト、低コントラスト、光吸収、屈折、散乱によるハジー効果に悩まされている。
近年の学習に基づく手法は水中画像の強調に驚くべき性能を示した。
本稿では,コンテンツとスタイル分離による水中画像強調のためのドメイン適応フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-17T09:30:29Z) - SGUIE-Net: Semantic Attention Guided Underwater Image Enhancement with
Multi-Scale Perception [18.87163028415309]
そこで我々はSGUIE-Netと呼ばれる新しい水中画像強調ネットワークを提案する。
一般的な意味領域を共有する様々な画像に対して,意味情報を高レベルなガイダンスとして導入する。
この戦略は、異なるセマンティックオブジェクトに対する堅牢で視覚的に快適な拡張を実現するのに役立ちます。
論文 参考訳(メタデータ) (2022-01-08T14:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。