論文の概要: Can Unsupervised Segmentation Reduce Annotation Costs for Video Semantic Segmentation?
- arxiv url: http://arxiv.org/abs/2603.27697v1
- Date: Sun, 29 Mar 2026 13:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.076854
- Title: Can Unsupervised Segmentation Reduce Annotation Costs for Video Semantic Segmentation?
- Title(参考訳): 教師なしセグメンテーションはビデオセマンティックセグメンテーションのアノテーションコストを削減できるか?
- Authors: Samik Some, Vinay P. Namboodiri,
- Abstract要約: ビデオセマンティックセグメンテーションのためのディープニューラルネットワークは、最良の結果を得るために、多数の細かいピクセルレベルのアノテーションを必要とする。
本稿では,ビデオセグメンテーションデータセットに必要なアノテーションコストを,そのようなリソースを活用して削減する手法について検討する。
- 参考スコア(独自算出の注目度): 21.229795661475826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Present-day deep neural networks for video semantic segmentation require a large number of fine-grained pixel-level annotations to achieve the best possible results. Obtaining such annotations, however, is very expensive. On the other hand, raw, unannotated video frames are practically free to obtain. Similarly, coarse annotations, which do not require precise boundaries, are also much cheaper. This paper investigates approaches to reduce the annotation cost required for video segmentation datasets by utilising such resources. We show that using state-of-the-art segmentation foundation models, Segment Anything Model (SAM) and Segment Anything Model 2 (SAM 2), we can utilise both unannotated frames as well as coarse annotations to alleviate the effort required for manual annotation of video segmentation datasets by automating mask generation. Our investigation suggests that if used appropriately, we can reduce the need for annotation by a third with similar performance for video semantic segmentation. More significantly, our analysis suggests that the variety of frames in the dataset is more important than the number of frames for obtaining the best performance.
- Abstract(参考訳): 現在のビデオセマンティックセグメンテーションのためのディープニューラルネットワークでは、最高の結果を得るためには、多数の細かいピクセルレベルのアノテーションが必要である。
しかし、このようなアノテーションの取得は非常にコストがかかる。
一方、生の無注釈ビデオフレームは事実上入手が自由である。
同様に、正確な境界を必要としない粗いアノテーションもはるかに安価である。
本稿では,ビデオセグメンテーションデータセットに必要なアノテーションコストを,そのようなリソースを活用して削減する手法について検討する。
本研究では,最新のセグメンテーション基盤モデルであるセグメンテーションモデル (SAM) とセグメンテーションモデル 2 (SAM2) を用いることで,マスク生成の自動化によるビデオセグメンテーションデータセットのマニュアルアノテーションの作業を軽減するために,注釈のないフレームと粗いアノテーションの両方を利用することができることを示す。
本研究は,ビデオセマンティックセグメンテーションに類似した性能でアノテーションの必要性を3分の1削減できることを示唆する。
さらに分析の結果,データセット内のフレームの多様性は,最高の性能を得るためのフレームの数よりも重要であることが示唆された。
関連論文リスト
- Parameter-free Video Segmentation for Vision and Language Understanding [55.20132267309382]
最小記述長の原理に基づいて,映像を連続的なチャンクに分割するアルゴリズムを提案する。
アルゴリズムは完全にパラメータフリーで、設定された閾値や指定するチャンクの数やサイズを必要としない特徴ベクトルが与えられる。
論文 参考訳(メタデータ) (2025-03-03T05:54:37Z) - PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation [15.9587266448337]
ビデオインスタンスのセグメンテーションには、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡する必要がある。
本稿では,画像データセットを利用してビデオアノテーションを除去する手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T05:22:39Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial Images [57.09251327650334]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - XMem++: Production-level Video Segmentation From Few Annotated Frames [32.68978079571079]
本稿では,既存のメモリベースモデルを改善する半教師付きビデオオブジェクトセグメンテーション(SSVOS)モデルであるXMem++を提案する。
本手法は,要求されるフレームアノテーション数を低く保ちながら,高度に一貫した結果を抽出することができる。
我々は,難易度(部分的・複数クラス)のセグメンテーションシナリオと長大なビデオ上でのSOTA性能を実証する。
論文 参考訳(メタデータ) (2023-07-29T11:18:23Z) - Weakly Supervised Instance Segmentation for Videos with Temporal Mask
Consistency [28.352140544936198]
弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。
画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。
私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。
論文 参考訳(メタデータ) (2021-03-23T23:20:46Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。