論文の概要: VVitCutLER: Towards Unsupervised Object Detection and Segmentation in Videos
- arxiv url: http://arxiv.org/abs/2605.17584v1
- Date: Mon, 11 May 2026 16:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.384953
- Title: VVitCutLER: Towards Unsupervised Object Detection and Segmentation in Videos
- Title(参考訳): VVitCutLER:ビデオにおける教師なしオブジェクト検出とセグメンテーションを目指して
- Authors: Zhijing Lu, Khurram Azeem Hashmi, Didier Stricker, Muhammad Zeshan Afzal,
- Abstract要約: VVitCutLERは、ビデオオブジェクトの検出とインスタンスのセグメンテーションのための教師なしのフレームワークである。
VitCutは、一時的に安定した擬似ラベルジェネレータで、フィールド劣化時にエラーの蓄積を減らす。
VitCutをベースとして、VVitCutLERはさらに、クロスフレーム機能アグリゲーションを統合して、ビデオレベルの堅牢性を高める。
- 参考スコア(独自算出の注目度): 20.283041811418922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised pixel-level video understanding remains challenging in real-world scenarios, where motion blur, occlusion, and fast object dynamics often cause temporal drift and flickering pseudo-labels.We propose VVitCutLER, an unsupervised framework for video object detection and instance segmentation, which improves the quality of pseudo-labels through temporal consistency. Our core contribution is VitCut, a temporarily stable pseudo-label generator that reduces error accumulation during field degradation through cross-frame region consistency. Meanwhile, VitCut uses a distillation decoder to achieve effective instance mask prediction. Then, based on VitCut, VVitCutLER further integrates cross-frame feature aggregation to enhance video-level robustness. Extensive experiments on standard video benchmarks demonstrate that VVitCutLER significantly improves detection and segmentation performance while reducing temporal instability. These results highlight the importance of temporally consistent supervision for robust pixel-level video understanding.
- Abstract(参考訳): 動きのぼやけやオクルージョン,高速物体のダイナミクスが時間的ドリフトやフレッカリングなどの擬似ラベルを引き起こすような現実のシナリオでは,教師なしの画素レベルの映像理解は依然として困難であり,ビデオオブジェクト検出とインスタンスセグメンテーションのための教師なしフレームワークであるVVitCutLERを提案し,時間的一貫性によって擬似ラベルの品質を向上させる。
私たちのコアコントリビューションはVitCutです。これは一時的に安定な擬似ラベルジェネレータで、クロスフレーム領域の一貫性を通じて、フィールド劣化時にエラーの蓄積を減らします。
一方、VitCutは蒸留デコーダを使用して、効果的なインスタンスマスク予測を実現している。
次に、VVitCutLERは、VVitCutLERをさらに統合して、ビデオレベルのロバスト性を高める。
VVitCutLERは、時間的不安定を低減しつつ、検出とセグメンテーション性能を大幅に改善することを示した。
これらの結果は,堅牢な画素レベルの映像理解のための時間的一貫した監視の重要性を強調した。
関連論文リスト
- Causal Bootstrapped Alignment for Unsupervised Video-Based Visible-Infrared Person Re-Identification [52.784239635604735]
VVI-ReIDは、静止画像以外にも時間情報が付加的な手がかりを提供する、全日監視のための重要な技術である。
既存のアプローチは、高価なクロスモダリティアノテーションによる完全な教師付き学習に大きく依存しており、スケーラビリティが制限されています。
そこで,本研究では,ビデオの先行を明示的に活用するCausal Bootstrapped Alignmentフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-17T02:15:59Z) - PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs [57.790910044227935]
ビデオLLMは時間的不整合に悩まされ、フレームタイミングの小さなシフトは注意をそらすことができ、関連するフレームを抑えることができる。
本稿では, 位相アグリゲード平滑化(PAS)について述べる。これは, 頭部に小さな反対位相オフセットを適用して, 出力を集約する学習自由機構である。
解析の結果,RoPE回転ロジットは,時間核でスケールしたコンテントドット積として近似でき,このカーネルを滑らかにすることで,小さな時間シフトに対する注意のリプシッツ安定性が得られ,マルチフェーズ平均化は,Nyquist-valid サンプリング下での頭当たりスペクトルを保ちながら高周波リップルを減衰させることがわかった。
論文 参考訳(メタデータ) (2025-11-14T05:56:47Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency [9.115508086522887]
我々はEigen VISと呼ばれる弱い教師付き手法を導入し、他のVIS手法と比較して競争精度を向上する。
この方法は、時間固有値損失(TEL)とクリップレベルの品質コ効率(QCC)の2つの重要なイノベーションに基づいている。
コードはhttps://github.com/farnooshar/EigenVIS.comで公開されている。
論文 参考訳(メタデータ) (2024-08-29T16:05:05Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features [7.895528973776606]
本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
FCDNetは連続するフレームのスタックを入力として使用し、ネットワークブロックを使ってアーティファクトを効果的に学習して特徴を学習する。
論文 参考訳(メタデータ) (2021-03-25T08:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。