論文の概要: Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2602.09648v1
- Date: Tue, 10 Feb 2026 10:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.50205
- Title: Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation
- Title(参考訳): Time2General: ドメイン一般化ビデオセマンティックセグメンテーションのための時空間不変表現の学習
- Authors: Siyu Chen, Ting Han, Haoling Huang, Chaolei Wang, Chengzheng Fu, Duxin Zhu, Guorong Cai, Jinhe Su,
- Abstract要約: ドメイン一般化ビデオセマンティック(DGVSS)は、単一のラベル付き駆動ドメインでトレーニングされる。
Time2Generalは、以前のDGVSSとVSSベースラインよりも、クロスドメインの精度と時間的安定性を大幅に改善する。
- 参考スコア(独自算出の注目度): 9.929390581043334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain Generalized Video Semantic Segmentation (DGVSS) is trained on a single labeled driving domain and is directly deployed on unseen domains without target labels and test-time adaptation while maintaining temporally consistent predictions over video streams. In practice, both domain shift and temporal-sampling shift break correspondence-based propagation and fixed-stride temporal aggregation, causing severe frame-to-frame flicker even in label-stable regions. We propose Time2General, a DGVSS framework built on Stability Queries. Time2General introduces a Spatio-Temporal Memory Decoder that aggregates multi-frame context into a clip-level spatio-temporal memory and decodes temporally consistent per-frame masks without explicit correspondence propagation. To further suppress flicker and improve robustness to varying sampling rates, the Masked Temporal Consistency Loss is proposed to regularize temporal prediction discrepancies across different strides, and randomize training strides to expose the model to diverse temporal gaps. Extensive experiments on multiple driving benchmarks show that Time2General achieves a substantial improvement in cross-domain accuracy and temporal stability over prior DGSS and VSS baselines while running at up to 18 FPS. Code will be released after the review process.
- Abstract(参考訳): ドメイン 汎用ビデオセマンティックセグメンテーション(DGVSS)は、単一のラベル付き駆動ドメインでトレーニングされ、ビデオストリーム上で時間的に一貫した予測を維持しながら、ターゲットラベルやテスト時間順応なしに、見えないドメインに直接デプロイされる。
実際には、ドメインシフトと時間サンプルシフトの両方が対応に基づく伝搬と固定ストライド時間アグリゲーションを破り、ラベル安定な領域でもフレーム間フリックが発生している。
安定クエリ上に構築されたDGVSSフレームワークであるTime2Generalを提案する。
Time2Generalは、マルチフレームコンテキストをクリップレベルの時空間メモリに集約し、明示的な対応伝達なしで時間的に一貫したフレーム毎のマスクをデコードする、時空間メモリデコーダを導入した。
さらに、フリックの抑制とサンプリングレートの変動に対する堅牢性の向上のために、マスケテンポラル一貫性損失(Masked Temporal Consistency Loss)が提案され、異なるストライドにわたる時間的予測の不一致を規則化し、トレーニングストライドをランダム化して、モデルを多様な時間的ギャップに露呈する。
複数の駆動ベンチマークに関する大規模な実験により、Time2Generalは、最大18FPSで実行しながら、以前のDGSSとVSSベースラインよりもクロスドメインの精度と時間的安定性を大幅に改善した。
コードはレビュープロセス後にリリースされる。
関連論文リスト
- E.M.Ground: A Temporal Grounding Vid-LLM with Holistic Event Perception and Matching [87.38371267983263]
時間的ビデオグラウンディングは、クエリイベントに対応する時間セグメントを正確にローカライズすることを目的としている。
E.M.GroundはTVGのための新しいVid-LLMで、総合的で一貫性のあるイベント知覚に焦点を当てている。
E.M.Ground は最先端の Vid-LLM を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-05T02:16:00Z) - Morphing Through Time: Diffusion-Based Bridging of Temporal Gaps for Robust Alignment in Change Detection [51.56484100374058]
既存の変更検出ネットワークを変更することなく空間的・時間的ロバスト性を改善するモジュールパイプラインを導入する。
拡散モジュールは、大きな外観ギャップをブリッジする中間変形フレームを合成し、RoMaは段階的に対応を推定できる。
LEVIR-CD、WHU-CD、DSIFN-CDの実験は、登録精度と下流変化検出の両方において一貫した利得を示した。
論文 参考訳(メタデータ) (2025-11-11T08:40:28Z) - TimeMosaic: Temporal Heterogeneity Guided Time Series Forecasting via Adaptive Granularity Patch and Segment-wise Decoding [3.64798801374117]
TimeMosaicは、時間的不均一性に対処することを目的とした予測フレームワークである。
TimeMosaicは、局所情報密度に応じて動的に粒度を調整するために適応パッチ埋め込みを採用している。
我々は,321億の観測値を持つ大規模コーパスを訓練し,最先端のTSFMと性能を比較検討した。
論文 参考訳(メタデータ) (2025-09-23T09:20:00Z) - Improving Weakly Supervised Temporal Action Localization by Exploiting Multi-resolution Information in Temporal Domain [84.73693644211596]
時間領域における多重解像度情報を完全に活用するための2段階の手法を提案する。
第1段階では、外観と動きの流れの両方に基づいて、信頼できる初期フレームレベルの擬似ラベルを生成する。
第2段階では、疑似ラベルを反復的に洗練し、信頼度の高い疑似ラベルを持つ選択されたフレームの集合を用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2025-06-23T03:20:18Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Local-Global Temporal Difference Learning for Satellite Video Super-Resolution [53.03380679343968]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。