論文の概要: A Unified Image-Dense Annotation Generation Model for Underwater Scenes
- arxiv url: http://arxiv.org/abs/2503.21771v1
- Date: Thu, 27 Mar 2025 17:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 18:49:11.655258
- Title: A Unified Image-Dense Annotation Generation Model for Underwater Scenes
- Title(参考訳): 水中シーンのための一元化画像密度アノテーション生成モデル
- Authors: Hongkai Lin, Dingkang Liang, Zhenghao Qi, Xiang Bai,
- Abstract要約: 本稿では,水中のシーンに対して,テキスト・ツー・イメージ・デンスアノテーションを統一的に生成する手法を提案する。
テキストのみを入力とし、リアルな水中画像と高度に一貫性のある複数のアノテーションを同時に生成する。
TIDEを用いて大規模な水中データセットを合成し,水中密集予測における手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 48.34534171882895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Underwater dense prediction, especially depth estimation and semantic segmentation, is crucial for gaining a comprehensive understanding of underwater scenes. Nevertheless, high-quality and large-scale underwater datasets with dense annotations remain scarce because of the complex environment and the exorbitant data collection costs. This paper proposes a unified Text-to-Image and DEnse annotation generation method (TIDE) for underwater scenes. It relies solely on text as input to simultaneously generate realistic underwater images and multiple highly consistent dense annotations. Specifically, we unify the generation of text-to-image and text-to-dense annotations within a single model. The Implicit Layout Sharing mechanism (ILS) and cross-modal interaction method called Time Adaptive Normalization (TAN) are introduced to jointly optimize the consistency between image and dense annotations. We synthesize a large-scale underwater dataset using TIDE to validate the effectiveness of our method in underwater dense prediction tasks. The results demonstrate that our method effectively improves the performance of existing underwater dense prediction models and mitigates the scarcity of underwater data with dense annotations. We hope our method can offer new perspectives on alleviating data scarcity issues in other fields. The code is available at https: //github.com/HongkLin/TIDE.
- Abstract(参考訳): 水中密集予測,特に深度推定とセマンティックセグメンテーションは,水中のシーンを包括的に理解するために重要である。
それでも、複雑な環境と外部データ収集コストのため、高濃度アノテーションを持つ高品質で大規模な水中データセットは依然として不足している。
本稿では,水中のシーンに対して,テキスト・ツー・イメージ・デンスアノテーションを統一的に生成する手法を提案する。
テキストのみを入力とし、リアルな水中画像と高度に一貫性のある複数のアノテーションを同時に生成する。
具体的には,テキスト・ツー・イメージとテキスト・トゥ・センスアノテーションの生成を単一モデルに統一する。
Inlicit Layout Sharing Mechanism (ILS) と Time Adaptive Normalization (TAN) と呼ばれる相互モーダル相互作用手法を導入し,画像と高密度アノテーションの一貫性を最適化する。
TIDEを用いて大規模な水中データセットを合成し,水中密集予測における手法の有効性を検証した。
以上の結果から,本手法は既存の水中密集予測モデルの性能を効果的に向上し,高濃度アノテーションによる水中データの不足を軽減できることが示唆された。
我々は,他の分野におけるデータ不足問題に対する新たな視点を提供することができることを願っている。
コードはhttps: //github.com/HongkLin/TIDEで入手できる。
関連論文リスト
- FSSUWNet: Mitigating the Fragility of Pre-trained Models with Feature Enhancement for Few-Shot Semantic Segmentation in Underwater Images [4.19512807949895]
Few-Shot Semantic (FSS)は、最近データスカースドメインで進歩している。
既存のFSS法は水中環境への一般化に苦慮することが多い。
機能強化を伴う水中画像のためのFSSフレームワークFSSUWNetを提案する。
論文 参考訳(メタデータ) (2025-04-01T07:09:15Z) - Improving underwater semantic segmentation with underwater image quality attention and muti-scale aggregation attention [13.73105543582749]
UnderWater SegFormer (UWSegFormer) は、低品質水中画像のセマンティックセグメンテーションのためのトランスフォーマーベースのフレームワークである。
提案手法は,SOTA法と比較した場合,分割完全性,境界明細度,主観的知覚的詳細性の点で有利である。
論文 参考訳(メタデータ) (2025-03-30T12:47:56Z) - Unified Dense Prediction of Video Diffusion [91.16237431830417]
テキストプロンプトからビデオとその対応するエンティティセグメンテーションと深度マップを同時に生成する統合ネットワークを提案する。
カラーマップを用いて実体マスクと深度マップを表現し,RGBビデオ生成と密集予測を密に統合する。
論文 参考訳(メタデータ) (2025-03-12T12:41:02Z) - Efficient Masked AutoEncoder for Video Object Counting and A Large-Scale Benchmark [52.339936954958034]
前景の動的不均衡は、ビデオオブジェクトのカウントにおいて大きな課題である。
本稿では,密度埋め込み型効率的なマスドオートエンコーダカウント(E-MAC)フレームワークを提案する。
さらに,渡り鳥保護のための自然シナリオにおいて,まず,大規模なビデオバードカウントデータセットであるDroneBirdを提案する。
論文 参考訳(メタデータ) (2024-11-20T06:08:21Z) - Atlantis: Enabling Underwater Depth Estimation with Stable Diffusion [30.122666238416716]
正確な地球深度データを用いて水中画像を生成する新しいパイプラインを提案する。
このアプローチは、水中深度推定のための教師付きモデルのトレーニングを容易にする。
我々は、特別に作成された水中、深度、テキストデータ三重項に基づいて訓練された独自のDepth2Underwater ControlNetを導入する。
論文 参考訳(メタデータ) (2023-12-19T08:56:33Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - DeepAqua: Self-Supervised Semantic Segmentation of Wetland Surface Water
Extent with SAR Images using Knowledge Distillation [44.99833362998488]
トレーニングフェーズ中に手動アノテーションを不要にする自己教師型ディープラーニングモデルであるDeepAquaを提案する。
我々は、光とレーダーをベースとしたウォーターマスクが一致する場合を利用して、水面と植物の両方を検知する。
実験の結果,DeepAquaの精度は7%向上し,Intersection Over Unionが27%,F1が14%向上した。
論文 参考訳(メタデータ) (2023-05-02T18:06:21Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Adaptive deep learning framework for robust unsupervised underwater image enhancement [3.0516727053033392]
ディープラーニングベースの水中画像強化における大きな課題の1つは、高品質なトレーニングデータの可用性の制限である。
本研究では、条件付き変分オートエンコーダ(cVAE)を用いて、深層学習モデルのトレーニングを行う、新しい教師なし水中画像強調フレームワークを提案する。
提案手法は, 定量化と定性化の両面において, 他の最先端手法と比較して, 競争性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-18T01:07:20Z) - Urban Scene Semantic Segmentation with Low-Cost Coarse Annotation [107.72926721837726]
粗いアノテーションは、セマンティックセグメンテーションモデルをトレーニングするための、低コストで非常に効果的な代替手段である。
粗い注釈付きデータの未ラベル領域の擬似ラベルを生成する粗大な自己学習フレームワークを提案する。
提案手法は,アノテーションの予算のごく一部で完全に注釈付けされたデータに匹敵する性能が得られるため,大幅な性能向上とアノテーションのコストトレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-15T15:43:42Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Overcoming Annotation Bottlenecks in Underwater Fish Segmentation: A Robust Self-Supervised Learning Approach [3.0516727053033392]
本稿では,Deep Learning を用いた魚のセグメンテーションのための自己教師型学習手法を提案する。
手動のアノテーションを使わずにトレーニングされた我々のモデルは、拡張ビューにまたがる特徴を整列することで、堅牢で一般化可能な表現を学習する。
DeepFish、Seagrass、YouTube-VOSの3つの挑戦的な水中ビデオデータセットでその効果を実証する。
論文 参考訳(メタデータ) (2022-06-11T01:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。