論文の概要: Multimodal-based Scene-Aware Framework for Aquatic Animal Segmentation
- arxiv url: http://arxiv.org/abs/2112.06193v1
- Date: Sun, 12 Dec 2021 09:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 11:27:40.226903
- Title: Multimodal-based Scene-Aware Framework for Aquatic Animal Segmentation
- Title(参考訳): 水生動物セグメンテーションのためのマルチモーダル型シーンアウェアフレームワーク
- Authors: Minh-Quan Le and Trung-Nghia Le and Tam V. Nguyen and Isao Echizen and
Minh-Triet Tran
- Abstract要約: 深層学習に基づく手法は水生動物のセグメンテーションに広く用いられている。
我々は「水生動物種」という新しいデータセットを作成しました
我々は新しいマルチモーダル型シーン認識セグメンテーションフレームワークを考案した。
- 参考スコア(独自算出の注目度): 21.59585916277418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed great advances in object segmentation research.
In addition to generic objects, aquatic animals have attracted research
attention. Deep learning-based methods are widely used for aquatic animal
segmentation and have achieved promising performance. However, there is a lack
of challenging datasets for benchmarking. Therefore, we have created a new
dataset dubbed "Aquatic Animal Species." Furthermore, we devised a novel
multimodal-based scene-aware segmentation framework that leverages the
advantages of multiple view segmentation models to segment images of aquatic
animals effectively. To improve training performance, we developed a guided
mixup augmentation method. Extensive experiments comparing the performance of
the proposed framework with state-of-the-art instance segmentation methods
demonstrated that our method is effective and that it significantly outperforms
existing methods.
- Abstract(参考訳): 近年,物体分割研究の進歩が注目されている。
一般的な対象に加え、水生動物は研究の注目を集めている。
深層学習に基づく手法は水生動物の分節に広く用いられ,有望な性能を達成している。
しかし、ベンチマークには難しいデータセットが不足している。
そこで我々は「水生動物種」という新しいデータセットを作成した。
さらに,複数視点セグメンテーションモデルの利点を活かし,水生動物のイメージを効果的にセグメンテーションする,マルチモーダル型シーンアウェアセグメンテーションフレームワークを考案した。
トレーニング性能を向上させるため,ガイドミキサアップ拡張法を開発した。
提案フレームワークの性能と最先端インスタンスセグメンテーション法を比較した広範な実験により,提案手法が有効であること,既存手法を大幅に上回ることを示した。
関連論文リスト
- TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance
Segmentation [51.199543962233506]
大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを高めることができるが、VISのデータセットは労働コストが高いためスケールアップが難しい。
私たちが持っているものは、多数の独立した提出された特定のデータセットであり、データ量と多様性を高めるためにデータセットの集合をまたいだモデルを共同でトレーニングすることが魅力です。
我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気で挑戦的なベンチマークで、広範囲に評価を行っている。
本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。
論文 参考訳(メタデータ) (2023-12-11T18:50:09Z) - Open-world Instance Segmentation: Top-down Learning with Bottom-up
Supervision [93.41096983704021]
ボトムアップとトップダウンオープンワールド(UDOS)と呼ばれるオープンワールドのインスタンスセグメンテーションのための新しいアプローチを提案する。
UDOSはまず、ボトムアップセグメンテーションから弱い監督で訓練されたトップダウンネットワークを使用して、オブジェクトの一部を予測する。
UDOSは、トップダウンアーキテクチャのスピードと効率と、ボトムアップの監視からカテゴリを見落とせる能力の両方を享受しています。
論文 参考訳(メタデータ) (2023-03-09T18:55:03Z) - BrackishMOT: The Brackish Multi-Object Tracking Dataset [20.52569822945148]
濁った環境で捕獲された水中マルチオブジェクト追跡(MOT)データセットは公開されていない。
BrackishMOTは、野生で捕獲された98のシークエンスから構成される。新しいデータセットに加えて、最先端のトラッカーをトレーニングしてベースライン結果を示す。
トレーニング中に合成データを含めることの効果を分析し,実際の水中トレーニングデータと合成水中トレーニングデータを組み合わせることで,追跡性能が向上することを示した。
論文 参考訳(メタデータ) (2023-02-21T13:02:36Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Transformer-based Self-Supervised Fish Segmentation in Underwater Videos [1.9249287163937976]
魚の高品質なセグメンテーションのための自己スーパービジョンを用いたトランスフォーマー方式を提案する。
1つのデータセットから水中ビデオのセットをトレーニングすると、提案モデルは従来のCNNベースおよびTransformerベースの自己教師方式を上回ることが示される。
論文 参考訳(メタデータ) (2022-06-11T01:20:48Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Semantic Segmentation of Underwater Imagery: Dataset and Benchmark [13.456412091502527]
水中イメージリー(SUIM)のセマンティック分析のための最初の大規模データセットを提示する。
魚(無脊椎動物)、サンゴ礁(無脊椎動物)、水生植物、難破船、人間ダイバー、ロボット、海底植物である。
また、標準的な性能指標に基づいて、最先端のセマンティックセマンティックセマンティクス手法のベンチマーク評価を行う。
論文 参考訳(メタデータ) (2020-04-02T19:53:14Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。