論文の概要: SlotMatch: Distilling Temporally Consistent Object-Centric Representations for Unsupervised Video Segmentation
- arxiv url: http://arxiv.org/abs/2508.03411v2
- Date: Tue, 19 Aug 2025 13:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.602203
- Title: SlotMatch: Distilling Temporally Consistent Object-Centric Representations for Unsupervised Video Segmentation
- Title(参考訳): SlotMatch: 教師なしビデオセグメンテーションのための一時一貫性のあるオブジェクト中心表現の蒸留
- Authors: Diana-Nicoleta Grigore, Neelu Madan, Andreas Mogelmose, Thomas B. Moeslund, Radu Tudor Ionescu,
- Abstract要約: 本稿では,オブジェクト中心の表現を軽量な学生に効果的に伝達する知識蒸留フレームワークを提案する。
提案したフレームワークは、SlotMatchと呼ばれ、コサインの類似性を通じて、対応する教師と生徒のスロットを調整する。
2つのデータセットで実験を行い、最先端の教師モデルであるSlotContrastと蒸留した学生を比較した。
- 参考スコア(独自算出の注目度): 35.63818543844962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised video segmentation is a challenging computer vision task, especially due to the lack of supervisory signals coupled with the complexity of visual scenes. To overcome this challenge, state-of-the-art models based on slot attention often have to rely on large and computationally expensive neural architectures. To this end, we propose a simple knowledge distillation framework that effectively transfers object-centric representations to a lightweight student. The proposed framework, called SlotMatch, aligns corresponding teacher and student slots via the cosine similarity, requiring no additional distillation objectives or auxiliary supervision. The simplicity of SlotMatch is confirmed via theoretical and empirical evidence, both indicating that integrating additional losses is redundant. We conduct experiments on two datasets to compare the state-of-the-art teacher model, SlotContrast, with our distilled student. The results show that our student based on SlotMatch matches and even outperforms its teacher, while using 3.6x less parameters and running 1.9x faster. Moreover, our student surpasses previous unsupervised video segmentation models.
- Abstract(参考訳): 教師なしビデオセグメンテーションは、特に視覚シーンの複雑さと相まって監督信号が不足しているため、コンピュータビジョンの課題である。
この課題を克服するためには、スロットアテンションに基づく最先端のモデルはしばしば、大規模で計算コストのかかるニューラルネットワークアーキテクチャに依存する必要がある。
そこで本研究では,オブジェクト中心の表現を軽量な学生に効果的に伝達する,シンプルな知識蒸留フレームワークを提案する。
提案されたフレームワークは、SlotMatchと呼ばれ、コサインの類似性を通じて、対応する教師と学生のスロットを調整し、追加の蒸留目標や補助的な監督を必要としない。
SlotMatchの単純さは、理論的および実証的な証拠によって確認され、両者とも、追加の損失を統合することは冗長であることを示している。
2つのデータセットで実験を行い、最先端の教師モデルであるSlotContrastと蒸留した学生を比較した。
その結果、SlotMatchをベースとした学生は3.6倍のパラメータを使用し、1.9倍高速に実行しながら、教師よりも優れています。
さらに,従来の教師なしビデオセグメンテーションモデルを超えている。
関連論文リスト
- ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models [39.520825264698374]
視覚変換器(ViT)は、グローバルな自己注意を通じて顕著な進歩を遂げてきたが、その二次的な複雑さは高解像度入力では禁止される可能性がある。
本稿では、リッチなViT表現を線形時間再帰型モデルに変換するクロスアーキテクチャ蒸留フレームワークであるViT-Linearizerについて述べる。
この結果から,RNNに基づく大規模視覚タスクの優れた実現可能性を示し,理論的効率性と実世界の実践とのギャップを埋めることができた。
論文 参考訳(メタデータ) (2025-03-30T15:35:24Z) - Injecting Explainability and Lightweight Design into Weakly Supervised Video Anomaly Detection Systems [2.0179223501624786]
本稿では,知識蒸留とクロスモーダルコントラスト学習を活用したTCVADS(Two-stage Cross-modal Video Anomaly Detection System)を提案する。
実験結果から,TCVADSはモデル性能,検出効率,解釈可能性において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-28T16:24:35Z) - Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection [11.250490586786878]
ビデオ異常検出は、監視ビデオにおける異常事象を識別できる自動モデルを開発することを目的としている。
複数のバックボーンの集約表現から1つのバックボーンモデルへの知識の蒸留が,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-06-05T00:44:42Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - MobileVOS: Real-Time Video Object Segmentation Contrastive Learning
meets Knowledge Distillation [4.511561231517167]
本稿では,携帯電話などの資源制約のあるデバイスにおける半教師付きビデオオブジェクトセグメンテーションの問題に取り組む。
有限メモリの小さな時空間メモリネットワークは,計算コストのごく一部で,最先端技術と競合する結果が得られることを示した。
論文 参考訳(メタデータ) (2023-03-14T11:46:04Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。