論文の概要: S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2512.14440v1
- Date: Tue, 16 Dec 2025 14:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.746141
- Title: S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation
- Title(参考訳): S2D: 教師なしビデオインスタンスセグメンテーションのためのスパース・トゥ・デンス・キーマスク蒸留法
- Authors: Leon Sick, Lukas Hoyer, Dominik Engel, Pedro Hermosilla, Timo Ropinski,
- Abstract要約: 本稿では,実映像データにのみ焦点をあてた教師なしビデオインスタンスセグメンテーションモデルを提案する。
我々は,映像中の高品質なキーマスクを同定し,深い動きの先行を生かして時間的コヒーレンスを確立する。
我々のアプローチは、様々なベンチマークで現在の最先端よりも優れています。
- 参考スコア(独自算出の注目度): 27.42479195861311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the state-of-the-art in unsupervised video instance segmentation has heavily relied on synthetic video data, generated from object-centric image datasets such as ImageNet. However, video synthesis by artificially shifting and scaling image instance masks fails to accurately model realistic motion in videos, such as perspective changes, movement by parts of one or multiple instances, or camera motion. To tackle this issue, we propose an unsupervised video instance segmentation model trained exclusively on real video data. We start from unsupervised instance segmentation masks on individual video frames. However, these single-frame segmentations exhibit temporal noise and their quality varies through the video. Therefore, we establish temporal coherence by identifying high-quality keymasks in the video by leveraging deep motion priors. The sparse keymask pseudo-annotations are then used to train a segmentation model for implicit mask propagation, for which we propose a Sparse-To-Dense Distillation approach aided by a Temporal DropLoss. After training the final model on the resulting dense labelset, our approach outperforms the current state-of-the-art across various benchmarks.
- Abstract(参考訳): 近年、教師なしビデオインスタンスセグメンテーションにおける最先端技術は、ImageNetのようなオブジェクト中心の画像データセットから生成される合成ビデオデータに大きく依存している。
しかし、画像のインスタンスマスクを人工的にシフトしてスケーリングすることでビデオ合成は、視点の変化、1つまたは複数のインスタンスの一部による移動、カメラモーションなどのビデオのリアルな動きを正確にモデル化することができない。
この問題に対処するために,実映像データのみに特化して訓練された教師なしビデオインスタンスセグメンテーションモデルを提案する。
まず、個々のビデオフレーム上の教師なしのインスタンスセグメンテーションマスクから始める。
しかし、これらの単一フレームのセグメンテーションは時間的ノイズを示し、その品質はビデオを通して変化する。
そこで我々は,映像中の高品質なキーマスクを同定し,深い動きの先行を生かして時間的コヒーレンスを確立する。
次に、スパルスキーマスク擬似アノテーションを用いて暗黙のマスク伝搬のためのセグメンテーションモデルを訓練し、テンポラルドロップロスによるスパース・トゥ・デンス蒸留法を提案する。
得られた高密度ラベルセットの最終的なモデルをトレーニングした後、我々のアプローチは様々なベンチマークで現在の最先端よりも優れています。
関連論文リスト
- AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - DirectSwap: Mask-Free Cross-Identity Training and Benchmarking for Expression-Consistent Video Head Swapping [58.2549561389375]
ビデオヘッドスワップは、顔のアイデンティティ、頭の形、ヘアスタイルなど、ビデオ対象の頭部全体を参照画像に置き換えることを目的としている。
地対交換データがないため、従来の手法はビデオ内の同一人物のクロスフレームペアをトレーニングする。
我々は、画像U-Netをビデオ拡散モデルに拡張する、マスクのない直接ビデオヘッドスワッピングフレームワークであるDirectSwapを提案する。
論文 参考訳(メタデータ) (2025-12-10T08:31:28Z) - FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching [19.401125268811015]
FlowCutは、3段階のフレームワークで構成される教師なしのビデオインスタンスセグメンテーションの方法である。
最初の段階では、画像と光の流れの両方から特徴の親和性を利用して擬似インスタントマスクを生成する。
第2段階では、フレーム間の時間的マッチングにより、高品質で一貫した擬似インスタントマスクを含む短いビデオセグメントを構築する。
第3段階では、YouTubeVIS-2021ビデオデータセットを使用して、トレーニングインスタンスセグメンテーションセットを抽出し、ビデオセグメンテーションモデルをトレーニングします。
論文 参考訳(メタデータ) (2025-05-19T14:30:33Z) - Lester: rotoscope animation through video object segmentation and
tracking [0.0]
レスターはビデオからレトロスタイルの2Dアニメーションを自動的に合成する新しい方法である。
ビデオフレームはSAM(Segment Anything Model)で処理され、結果のマスクは後のフレームを通してDeAOTで追跡される。
その結果,提案手法は時間的整合性に優れており,ポーズや外観の異なる映像を正しく処理できることがわかった。
論文 参考訳(メタデータ) (2024-02-15T11:15:54Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - TubeFormer-DeepLab: Video Mask Transformer [98.47947102154217]
本研究では,複数のコアビデオセグメンテーションタスクを統一的に処理するための最初の試みであるTubeFormer-DeepLabを紹介する。
TubeFormer-DeepLabは、タスク固有のラベルでビデオチューブを直接予測する。
論文 参考訳(メタデータ) (2022-05-30T18:10:33Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Spatial Feature Calibration and Temporal Fusion for Effective One-stage
Video Instance Segmentation [16.692219644392253]
本稿では,空間キャリブレーションと時間融合による一段階ビデオインスタンスセグメンテーションフレームワークであるstmaskを提案する。
YouTube-VIS検証セットの実験では、提案されたSTMaskとResNet-50/-101のバックボーンが33.5 %/36.8 %のマスクAPを取得し、ビデオインスタンスセグメンテーションでは28.6 / 23.4 FPSを達成した。
論文 参考訳(メタデータ) (2021-04-06T09:26:58Z) - Weakly Supervised Instance Segmentation for Videos with Temporal Mask
Consistency [28.352140544936198]
弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。
画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。
私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。
論文 参考訳(メタデータ) (2021-03-23T23:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。