論文の概要: Bootstrapping Video Semantic Segmentation Model via Distillation-assisted Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2604.10950v2
- Date: Tue, 14 Apr 2026 08:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.41973
- Title: Bootstrapping Video Semantic Segmentation Model via Distillation-assisted Test-Time Adaptation
- Title(参考訳): 蒸留支援試験時間適応によるブートストラップ映像セマンティックセマンティックセグメンテーションモデル
- Authors: Jihun Kim, Hoyong Kwon, Hyeokjun Kweon, Kuk-Jin Yoon,
- Abstract要約: DiTTA(Distillation-assisted Test-Time Adaptation)は、ISSモデルをアノテーション付きビデオなしで時間的に認識されたVSSモデルに変換する新しいフレームワークである。
完全教師付きVSS法と比較して,DITTAの有効性を示す。
- 参考スコア(独自算出の注目度): 58.40817037271021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fully supervised Video Semantic Segmentation (VSS) relies heavily on densely annotated video data, limiting practical applicability. Alternatively, applying pre-trained Image Semantic Segmentation (ISS) models frame-by-frame avoids annotation costs but ignores crucial temporal coherence. Recent foundation models such as SAM2 enable high-quality mask propagation yet remain impractical for direct VSS due to limited semantic understanding and computational overhead. In this paper, we propose DiTTA (Distillation-assisted Test-Time Adaptation), a novel framework that converts an ISS model into a temporally-aware VSS model through efficient test-time adaptation (TTA), without annotated videos. DiTTA distills SAM2's temporal segmentation knowledge into the ISS model during a brief, single-pass initialization phase, complemented by a lightweight temporal fusion module to aggregate cross-frame context. Crucially, DiTTA achieves robust generalization even when adapting with highly limited partial video snippets (e.g., initial 10%), significantly outperforming zero-shot refinement approaches that repeatedly invoke SAM2 during inference. Extensive experiments on VSPW and Cityscapes demonstrate DiTTA's effectiveness, achieving competitive or superior performance relative to fully-supervised VSS methods, thus providing a practical and annotation-free solution for real-world VSS tasks.
- Abstract(参考訳): 完全な教師付きビデオセマンティックセグメンテーション(VSS)は、厳密な注釈付きビデオデータに大きく依存し、実用的な適用性を制限する。
あるいは、事前訓練されたイメージセマンティックセグメンテーション(ISS)モデルを適用すると、アノテーションのコストは回避されるが、重要な時間的一貫性は無視される。
SAM2のような最近の基礎モデルでは、セマンティック理解と計算オーバーヘッドの制限により、高品質なマスク伝搬が可能だが、直接VSSでは実現不可能である。
本稿では, ISS モデルから, 効率的なテスト時間適応(TTA)による時空間認識型 VSS モデルに変換する新しいフレームワークである DiTTA (Distillation-assisted Test-Time Adaptation) を提案する。
DiTTAはSAM2の時間分割知識を、短い単一パス初期化フェーズでISSモデルに蒸留し、軽量の時間融合モジュールで補完し、クロスフレームのコンテキストを集約する。
重要なことに、DiTTAは、高度に制限された部分的ビデオスニペット(例えば、初期10%)で適応しても堅牢な一般化を実現し、推論中にSAM2を繰り返し呼び出すゼロショット精細化アプローチを著しく上回っている。
VSPWとCityscapesの大規模な実験は、DitTAの有効性を示し、完全に教師されたVSSメソッドと比較して、競争力や優れたパフォーマンスを実現し、現実のVSSタスクに対して実用的でアノテーションなしのソリューションを提供する。
関連論文リスト
- TTA-Vid: Generalized Test-Time Adaptation for Video Reasoning [54.70019148172847]
テスト時強化学習(Test-Time Reinforcement Learning)のパラダイムをビデオ言語データに活用することにより,事前学習されたモデルを明示的なラベルなしで,テスト時のビデオサンプルに適応させることができる。
ビデオアプローチのためのテスト時間適応(TTA-Vid)は、同時に動作する2つのコンポーネントを組み合わせる。
TTA-Vidは、様々なビデオ推論タスクで一貫した改善をもたらし、大規模データで訓練された最先端の手法より優れている。
論文 参考訳(メタデータ) (2026-04-01T09:52:57Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Trajectory-aware Shifted State Space Models for Online Video Super-Resolution [57.87099307245989]
本稿では、トラジェクトリ対応シフトSSM(TS-Mamba)に基づく新しいオンラインVSR手法を提案する。
TS-Mambaは、最初にビデオ内の軌跡を構築し、以前のフレームから最もよく似たトークンを選択する。
私たちのTS-Mambaは、ほとんどのケースで最先端のパフォーマンスを実現し、22.7%以上の削減複雑性(MAC)を実現しています。
論文 参考訳(メタデータ) (2025-08-14T08:42:15Z) - Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild [38.94246183524246]
本稿では,参照対象画像ペア間の固有対応を擬似ビデオとして表現する手法を提案する。
この観点により、SAM2として知られるSAMの最新バージョンは、ダウンストリームタスクに軽量に適応できる。
我々はこのアプローチをSAM(CAV-SAM)のためのビデオとして対応づける。
論文 参考訳(メタデータ) (2025-08-11T08:42:49Z) - Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-27T08:39:38Z) - ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning [5.587301322663445]
我々は、強化学習(SVTAS-RL)を用いたエンド・ツー・エンドのストリーミングビデオ時間的動作分割モデルを提案する。
SVTAS-RLモデルは既存のSTASモデルを大幅に上回り、同じ評価基準の下で複数のデータセット上で最先端のTASモデルと競合する性能を達成する。
論文 参考訳(メタデータ) (2023-09-27T14:30:34Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。