Fugu-MT 論文翻訳(概要): What is Point Supervision Worth in Video Instance Segmentation?

論文の概要: What is Point Supervision Worth in Video Instance Segmentation?

arxiv url: http://arxiv.org/abs/2404.01990v1
Date: Mon, 1 Apr 2024 17:38:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 16:09:04.843275
Title: What is Point Supervision Worth in Video Instance Segmentation?
Title（参考訳）: ビデオインスタンスセグメンテーションにおけるポイントスーパービジョンの価値
Authors: Shuaiyi Huang, De-An Huang, Zhiding Yu, Shiyi Lan, Subhashree Radhakrishnan, Jose M. Alvarez, Abhinav Shrivastava, Anima Anandkumar,
Abstract要約: ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。 3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
参考スコア（独自算出の注目度）: 119.71921319637748
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video instance segmentation (VIS) is a challenging vision task that aims to detect, segment, and track objects in videos. Conventional VIS methods rely on densely-annotated object masks which are expensive. We reduce the human annotations to only one point for each object in a video frame during training, and obtain high-quality mask predictions close to fully supervised models. Our proposed training method consists of a class-agnostic proposal generation module to provide rich negative samples and a spatio-temporal point-based matcher to match the object queries with the provided point annotations. Comprehensive experiments on three VIS benchmarks demonstrate competitive performance of the proposed framework, nearly matching fully supervised methods.
Abstract（参考訳）: ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。従来のVIS法は、高価な密接な注釈付けされたオブジェクトマスクに依存している。トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。提案手法は, クラスに依存しない提案生成モジュールから成り, リッチな負のサンプルを提供するとともに, オブジェクトクエリと提供されたポイントアノテーションとを一致させる時空間整合器を備える。 3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。

関連論文リスト

From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。 Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文参考訳（メタデータ） (2025-06-30T05:01:40Z)
Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文参考訳（メタデータ） (2024-12-02T13:17:41Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T02:48:04Z)
Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文参考訳（メタデータ） (2022-12-15T02:44:13Z)
Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文参考訳（メタデータ） (2022-07-05T17:59:43Z)
Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文参考訳（メタデータ） (2022-04-22T15:32:46Z)
Target-Aware Object Discovery and Association for Unsupervised Video Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。より正確で効率的な時間区分のための新しいアプローチを紹介します。 DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2021-04-10T14:39:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。