論文の概要: Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training
- arxiv url: http://arxiv.org/abs/2512.06864v1
- Date: Sun, 07 Dec 2025 14:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.561791
- Title: Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training
- Title(参考訳): 自動品質ガイドによる教師なしビデオインスタンスセグメンテーションの強化
- Authors: Kaixuan Lu, Mehmet Onurcan Kaya, Dim P. Papadopoulos,
- Abstract要約: ビデオインスタンス(VIS)は、ピクセルレベルのマスクと時間的一貫性ラベルの二重要求のため、重要なアノテーションの課題に直面している。
我々は、高品質な自己学習を通じてこのギャップを橋渡しする、新しい教師なしのフレームワークであるAutoQ-VISを紹介する。
- 参考スコア(独自算出の注目度): 3.558452956820138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Instance Segmentation (VIS) faces significant annotation challenges due to its dual requirements of pixel-level masks and temporal consistency labels. While recent unsupervised methods like VideoCutLER eliminate optical flow dependencies through synthetic data, they remain constrained by the synthetic-to-real domain gap. We present AutoQ-VIS, a novel unsupervised framework that bridges this gap through quality-guided self-training. Our approach establishes a closed-loop system between pseudo-label generation and automatic quality assessment, enabling progressive adaptation from synthetic to real videos. Experiments demonstrate state-of-the-art performance with 52.6 $\text{AP}_{50}$ on YouTubeVIS-2019 $\texttt{val}$ set, surpassing the previous state-of-the-art VideoCutLER by 4.4%, while requiring no human annotations. This demonstrates the viability of quality-aware self-training for unsupervised VIS. We will release the code at https://github.com/wcbup/AutoQ-VIS.
- Abstract(参考訳): ビデオインスタンスセグメンテーション(VIS)は、ピクセルレベルのマスクと時間的一貫性ラベルの二重要求のため、重要なアノテーション課題に直面している。
近年のVideoCutLERのような教師なしの手法は、合成データによる光フロー依存を排除しているが、合成と現実のドメインギャップに制約されている。
我々は、高品質な自己学習を通じてこのギャップを橋渡しする、新しい教師なしのフレームワークであるAutoQ-VISを紹介する。
提案手法は, 擬似ラベル生成と自動品質評価のクローズドループシステムを確立し, 合成映像から実映像へのプログレッシブ適応を実現する。
実験では、52.6 $\text{AP}_{50}$ on YouTubeVIS-2019 $\texttt{val}$ setで最先端のパフォーマンスを実証している。
これにより、教師なしVISにおける品質認識型自己学習の実現可能性を示す。
コードはhttps://github.com/wcbup/AutoQ-VISで公開します。
関連論文リスト
- AutoQ-VIS: Improving Unsupervised Video Instance Segmentation via Automatic Quality Assessment [3.558452956820138]
ビデオインスタンス(VIS)は、ピクセルレベルのマスクと時間的一貫性ラベルの二重要求のため、重要なアノテーションの課題に直面している。
我々は、高品質な自己学習を通じてこのギャップを橋渡しする、新しい教師なしのフレームワークであるAutoQ-VISを紹介する。
提案手法は, 擬似ラベル生成と自動品質評価のクローズドループシステムを確立し, 合成映像から実映像へのプログレッシブ適応を実現する。
論文 参考訳(メタデータ) (2025-08-27T11:52:41Z) - FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching [19.401125268811015]
FlowCutは、3段階のフレームワークで構成される教師なしのビデオインスタンスセグメンテーションの方法である。
最初の段階では、画像と光の流れの両方から特徴の親和性を利用して擬似インスタントマスクを生成する。
第2段階では、フレーム間の時間的マッチングにより、高品質で一貫した擬似インスタントマスクを含む短いビデオセグメントを構築する。
第3段階では、YouTubeVIS-2021ビデオデータセットを使用して、トレーニングインスタンスセグメンテーションセットを抽出し、ビデオセグメンテーションモデルをトレーニングします。
論文 参考訳(メタデータ) (2025-05-19T14:30:33Z) - Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency [9.115508086522887]
我々はEigen VISと呼ばれる弱い教師付き手法を導入し、他のVIS手法と比較して競争精度を向上する。
この方法は、時間固有値損失(TEL)とクリップレベルの品質コ効率(QCC)の2つの重要なイノベーションに基づいている。
コードはhttps://github.com/farnooshar/EigenVIS.comで公開されている。
論文 参考訳(メタデータ) (2024-08-29T16:05:05Z) - UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries [60.09774333024783]
動的アンカークエリ(DAQ)を導入し、アンカーとターゲットクエリ間の遷移ギャップを短くする。
また,クエリレベルのオブジェクトEmergence and Disappearance Simulation(EDS)戦略を導入する。
実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-29T17:58:50Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - Two-Level Temporal Relation Model for Online Video Instance Segmentation [3.9349485816629888]
オフライン端末の性能に匹敵するオンライン手法を提案する。
オブジェクトをエンコードし、時間を通して関連付ける、メッセージパッシンググラフニューラルネットワークを導入する。
提案モデルは,YouTube-VISデータセット上で,訓練されたエンドツーエンド,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-30T10:01:01Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。