論文の概要: Transformer-based Self-Supervised Fish Segmentation in Underwater Videos
- arxiv url: http://arxiv.org/abs/2206.05390v1
- Date: Sat, 11 Jun 2022 01:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-06-14 15:33:02.279189
- Title: Transformer-based Self-Supervised Fish Segmentation in Underwater Videos
- Title(参考訳): 水中ビデオにおける変圧器型自己教師付き魚のセグメンテーション
- Authors: Alzayat Saleh, Marcus Sheaves, Dean Jerry, and Mostafa Rahimi Azghadi
- Abstract要約: 魚の高品質なセグメンテーションのための自己スーパービジョンを用いたトランスフォーマー方式を提案する。
1つのデータセットから水中ビデオのセットをトレーニングすると、提案モデルは従来のCNNベースおよびTransformerベースの自己教師方式を上回ることが示される。
- 参考スコア(独自算出の注目度): 1.9249287163937976
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Underwater fish segmentation to estimate fish body measurements is still
largely unsolved due to the complex underwater environment. Relying on
fully-supervised segmentation models requires collecting per-pixel labels,
which is time-consuming and prone to overfitting. Self-supervised learning
methods can help avoid the requirement of large annotated training datasets,
however, to be useful in real-world applications, they should achieve good
segmentation quality. In this paper, we introduce a Transformer-based method
that uses self-supervision for high-quality fish segmentation. Our proposed
model is trained on videos -- without any annotations -- to perform fish
segmentation in underwater videos taken in situ in the wild. We show that when
trained on a set of underwater videos from one dataset, the proposed model
surpasses previous CNN-based and Transformer-based self-supervised methods and
achieves performance relatively close to supervised methods on two new unseen
underwater video datasets. This demonstrates the great generalisability of our
model and the fact that it does not need a pre-trained model. In addition, we
show that, due to its dense representation learning, our model is
compute-efficient. We provide quantitative and qualitative results that
demonstrate our model's significant capabilities.
- Abstract(参考訳): 魚体測定を推定する水中魚のセグメンテーションは、複雑な水中環境のため、いまだに未解決である。
完全な教師付きセグメンテーションモデルに依存するためには、ピクセル単位のラベルを収集する必要がある。
自己教師あり学習法は、大規模な注釈付きトレーニングデータセットの必要性を避けるのに役立つが、現実世界のアプリケーションで役立つためには、優れたセグメンテーション品質を達成する必要がある。
本稿では,魚の高品質セグメンテーションにセルフスーパービジョンを用いた変圧器方式を提案する。
提案したモデルは、野生で撮影された水中ビデオで魚のセグメンテーションを行うために、アノテーションなしで動画で訓練されている。
1つのデータセットから水中ビデオのセットをトレーニングすると、提案モデルは従来のCNNベースおよびTransformerベースの自己監督手法を超え、新しい2つの水中ビデオデータセットの教師あり手法に比較的近い性能を実現する。
これは、我々のモデルの大きな一般化可能性と、事前訓練されたモデルを必要としないという事実を示しています。
さらに,表現学習の高度化により,モデルが計算効率が高いことを示す。
モデルの重要な能力を示す量的および質的な結果を提供する。
関連論文リスト
- Closer to Ground Truth: Realistic Shape and Appearance Labeled Data Generation for Unsupervised Underwater Image Segmentation [8.511846002129522]
人間のアノテーションを必要としない2段階の非教師付きセグメンテーション手法を導入し、人工的に作成された実画像と実画像を組み合わせる。
本手法は,仮想魚を現実世界の水中環境に配置することにより,難易度の高い合成訓練データを生成する。
水中ビデオにおけるサーモンセグメンテーションの特定の事例にその効果を示し,本研究で最大のデータセットであるDeepSalmon(30GB)を紹介した。
論文 参考訳(メタデータ) (2025-03-20T11:34:45Z) - FAFA: Frequency-Aware Flow-Aided Self-Supervision for Underwater Object Pose Estimation [65.01601309903971]
無人水中車両(UUV)の6次元ポーズ推定のための周波数認識フロー支援フレームワークであるFAFAを紹介する。
我々のフレームワークは、3DモデルとRGB画像のみに依存しており、実際のポーズアノテーションや奥行きのような非モダリティデータの必要性を軽減しています。
本研究では,一般的な水中オブジェクトポーズベンチマークにおけるFAFAの有効性を評価し,最先端手法と比較して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-25T03:54:01Z) - Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset [60.14089302022989]
水中視覚タスクは複雑な水中状況のため、しばしばセグメンテーションの精度が低い。
第1次大規模水中塩分分節データセット(USIS10K)を構築した。
本研究では,水中ドメインに特化してセグメンツ・ア・シング・モデル(USIS-SAM)に基づく水中塩分・インスタンス・アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-10T06:17:33Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Interpretable Underwater Diver Gesture Recognition [0.0]
深層学習を用いた認知自律的な潜水行動データセットに基づいて学習した水中ジェスチャー認識システムを提案する。
また、XAI技術を用いてモデルの予測を可視化することにより、ジェスチャー認識システム解釈性を向上させる。
論文 参考訳(メタデータ) (2023-12-08T07:14:52Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - DeepAqua: Self-Supervised Semantic Segmentation of Wetland Surface Water
Extent with SAR Images using Knowledge Distillation [44.99833362998488]
トレーニングフェーズ中に手動アノテーションを不要にする自己教師型ディープラーニングモデルであるDeepAquaを提案する。
我々は、光とレーダーをベースとしたウォーターマスクが一致する場合を利用して、水面と植物の両方を検知する。
実験の結果,DeepAquaの精度は7%向上し,Intersection Over Unionが27%,F1が14%向上した。
論文 参考訳(メタデータ) (2023-05-02T18:06:21Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - How to Track and Segment Fish without Human Annotations: A Self-Supervised Deep Learning Approach [3.0516727053033392]
魚の追跡とセグメンテーションのためのディープニューラルネットワーク(DNN)のトレーニングには、高品質なラベルが必要である。
本研究では,映像データの空間的・時間的変動に依存する教師なしの手法を提案する。
本フレームワークは,(1) フレーム間の空間的・時間的整合性を利用して擬似ラベルを生成する光学フローモデル,(2) 擬似ラベルを漸進的に洗練する自己教師型モデル,(3) 分割ネットワークの3段階からなる。
論文 参考訳(メタデータ) (2022-08-23T01:01:27Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-16T17:42:48Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - A Realistic Fish-Habitat Dataset to Evaluate Algorithms for Underwater
Visual Analysis [2.6476746128312194]
我々は、DeepFishを大規模データセットでベンチマークスイートとして提示し、いくつかのコンピュータビジョンタスクのためのメソッドをトレーニングし、テストする。
このデータセットは、熱帯オーストラリアの海洋環境にある20の温帯生物から採取された約4万枚の画像で構成されている。
実験では,データセットの特徴を詳細に分析し,いくつかの最先端手法の性能評価を行った。
論文 参考訳(メタデータ) (2020-08-28T12:20:59Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z) - Deep Learning based Segmentation of Fish in Noisy Forward Looking MBES
Images [1.5469452301122177]
セマンティックセグメンテーションのためのディープラーニング(DL)と畳み込みニューラルネットワーク(CNN)の最近の進歩に基づいて構築する。
画像ソナーによって投影される全ての射程方位位置に対する魚・魚・魚の確率予測のためのエンドツーエンドのアプローチを実証する。
我々は,本モデルが所望のパフォーマンスを証明し,意味的文脈の重要性を活用することを学習したことを示す。
論文 参考訳(メタデータ) (2020-06-16T09:57:38Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - Semantic Segmentation of Underwater Imagery: Dataset and Benchmark [13.456412091502527]
水中イメージリー(SUIM)のセマンティック分析のための最初の大規模データセットを提示する。
魚(無脊椎動物)、サンゴ礁(無脊椎動物)、水生植物、難破船、人間ダイバー、ロボット、海底植物である。
また、標準的な性能指標に基づいて、最先端のセマンティックセマンティックセマンティクス手法のベンチマーク評価を行う。
論文 参考訳(メタデータ) (2020-04-02T19:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。