論文の概要: RipVIS: Rip Currents Video Instance Segmentation Benchmark for Beach Monitoring and Safety
- arxiv url: http://arxiv.org/abs/2504.01128v2
- Date: Thu, 03 Apr 2025 09:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:05.023031
- Title: RipVIS: Rip Currents Video Instance Segmentation Benchmark for Beach Monitoring and Safety
- Title(参考訳): RipVIS: ビーチモニタリングと安全のためのビデオインスタンスセグメンテーションベンチマーク
- Authors: Andrei Dumitriu, Florin Tatui, Florin Miron, Aakash Ralhan, Radu Tudor Ionescu, Radu Timofte,
- Abstract要約: RipVISは、リップ電流セグメンテーション用に設計された大規模ビデオインスタンスセグメンテーションベンチマークである。
我々のデータセットは、波の破れパターン、堆積物の流れ、水色の変化など、様々な視覚的文脈を包含している。
結果は複数のメトリクスで報告され、特にリコールの優先順位付けと偽陰性の低減に$F$スコアに重点を置いている。
- 参考スコア(独自算出の注目度): 57.243502132481176
- License:
- Abstract: Rip currents are strong, localized and narrow currents of water that flow outwards into the sea, causing numerous beach-related injuries and fatalities worldwide. Accurate identification of rip currents remains challenging due to their amorphous nature and the lack of annotated data, which often requires expert knowledge. To address these issues, we present RipVIS, a large-scale video instance segmentation benchmark explicitly designed for rip current segmentation. RipVIS is an order of magnitude larger than previous datasets, featuring $184$ videos ($212,328$ frames), of which $150$ videos ($163,528$ frames) are with rip currents, collected from various sources, including drones, mobile phones, and fixed beach cameras. Our dataset encompasses diverse visual contexts, such as wave-breaking patterns, sediment flows, and water color variations, across multiple global locations, including USA, Mexico, Costa Rica, Portugal, Italy, Greece, Romania, Sri Lanka, Australia and New Zealand. Most videos are annotated at $5$ FPS to ensure accuracy in dynamic scenarios, supplemented by an additional $34$ videos ($48,800$ frames) without rip currents. We conduct comprehensive experiments with Mask R-CNN, Cascade Mask R-CNN, SparseInst and YOLO11, fine-tuning these models for the task of rip current segmentation. Results are reported in terms of multiple metrics, with a particular focus on the $F_2$ score to prioritize recall and reduce false negatives. To enhance segmentation performance, we introduce a novel post-processing step based on Temporal Confidence Aggregation (TCA). RipVIS aims to set a new standard for rip current segmentation, contributing towards safer beach environments. We offer a benchmark website to share data, models, and results with the research community, encouraging ongoing collaboration and future contributions, at https://ripvis.ai.
- Abstract(参考訳): リップ・カレントは強い、局部的な、狭い水流であり、海に流れ込み、世界中のビーチ関連の負傷者や死亡者を生み出している。
アモルファスな性質とアノテートされたデータがないため、しばしば専門家の知識を必要とするため、リップ電流の正確な同定は依然として困難である。
これらの問題に対処するために,大容量ビデオインスタンスセグメンテーションベンチマークRipVISを提案する。
RipVISは、以前のデータセットよりも桁違いに大きく、184ドルの動画(212,328ドルフレーム)で、そのうち150ドルの動画(163,528ドルフレーム)には、ドローン、携帯電話、固定ビーチカメラなど、さまざまなソースから収集されたリップ電流がある。
我々のデータセットは、米国、メキシコ、コスタリカ、ポルトガル、イタリア、ギリシャ、ルーマニア、スリランカ、オーストラリア、ニュージーランドなど、複数のグローバルな場所において、波浪パターン、堆積物の流れ、水色の変化などの様々な視覚的文脈を包含している。
ほとんどのビデオは、ダイナミックなシナリオの精度を確保するために5ドルFPSでアノテートされている。
Mask R-CNN, Cascade Mask R-CNN, SparseInst, YOLO11 を用いて包括的実験を行い、これらのモデルを用いてリップ電流セグメンテーションのタスクを微調整する。
結果は複数のメトリクスで報告され、特にリコールの優先順位付けと偽陰性の低減に$F_2$スコアに重点を置いている。
セグメンテーション性能を向上させるために,時間信頼集約(TCA)に基づく新しい後処理ステップを導入する。
RipVISは、より安全なビーチ環境に寄与する、リッピング電流セグメンテーションのための新しい標準を設定することを目指している。
私たちは、研究コミュニティとデータ、モデル、結果を共有するためのベンチマークウェブサイトを提供し、現在進行中のコラボレーションと今後のコントリビューションを、https://ripvis.ai.comで奨励しています。
関連論文リスト
- LaRS: A Diverse Panoptic Maritime Obstacle Detection Dataset and
Benchmark [9.864996020621701]
我々は,湖沼,河川,海のシーンを特徴とする,最初の海洋パノビュータ障害物検出ベンチマークLaRSを提示する。
LaRSは1ピクセルあたり4000以上のラベル付きキーフレームと9つの前のフレームで構成され、時間的テクスチャの利用を可能にしている。
本稿では,27のセマンティック・パノプティック・セグメンテーション手法と,いくつかのパフォーマンスインサイトと今後の研究方向性について報告する。
論文 参考訳(メタデータ) (2023-08-18T15:21:15Z) - Recurrence without Recurrence: Stable Video Landmark Detection with Deep
Equilibrium Models [96.76758318732308]
本稿では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。
我々のLandmark DEQ(LDEQ)は、WFLW顔ランドマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-02T19:08:02Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - Occluded Video Instance Segmentation [133.80567761430584]
OVISと呼ばれる大規模なデータセットを収集し、ビデオインスタンスのセグメンテーションをブロックする。
OVISは25のセマンティックカテゴリから296kの高品質なインスタンスマスクで構成されている。
最先端のアルゴリズムによって達成された最も高いAPは14.4であり、現実世界のシナリオでオブジェクト、インスタンス、ビデオを理解するための初期段階にあることを示している。
論文 参考訳(メタデータ) (2021-02-02T15:35:43Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Tamed Warping Network for High-Resolution Semantic Video Segmentation [14.553335231691877]
我々はキーフレーム以外のCNNを構築し、現在の空間的詳細と歪んだコンテキスト特徴を融合させる。
特徴の融合に基づいて、私たちのContext Feature Rectification(CFR)モジュールは、フレームごとのモデルの違いを学習し、歪んだ特徴を修正する。
我々のResidual-Guided Attention(RGA)モジュールは圧縮された領域の残余マップを利用して、CRFがエラーを起こしやすい領域にフォーカスするのを助ける。
論文 参考訳(メタデータ) (2020-05-04T09:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。