論文の概要: High Temporal Consistency through Semantic Similarity Propagation in Semi-Supervised Video Semantic Segmentation for Autonomous Flight
- arxiv url: http://arxiv.org/abs/2503.15676v1
- Date: Wed, 19 Mar 2025 20:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:19.223924
- Title: High Temporal Consistency through Semantic Similarity Propagation in Semi-Supervised Video Semantic Segmentation for Autonomous Flight
- Title(参考訳): 自律飛行用半監督ビデオセマンティックセマンティックセグメンテーションにおける意味的類似性伝播による高時間一貫性
- Authors: Cédric Vincent, Taehyoung Kim, Henri Meeß,
- Abstract要約: 本稿では,空中データに対する高時間整合性を実現するために,リアルタイム推論に適した軽量なビデオセマンティックセマンティック・セマンティクス手法を提案する。
SSPは、カメラの動きを補うために、グローバルな登録アライメントによる効率的な画像分割モデルの予測を時間的に伝播する。
一般的なアプリケーションで提案される他のビデオ手法よりも、セグメンテーション品質と推論速度のトレードオフが優れている。
- 参考スコア(独自算出の注目度): 0.9012198585960443
- License:
- Abstract: Semantic segmentation from RGB cameras is essential to the perception of autonomous flying vehicles. The stability of predictions through the captured videos is paramount to their reliability and, by extension, to the trustworthiness of the agents. In this paper, we propose a lightweight video semantic segmentation approach-suited to onboard real-time inference-achieving high temporal consistency on aerial data through Semantic Similarity Propagation across frames. SSP temporally propagates the predictions of an efficient image segmentation model with global registration alignment to compensate for camera movements. It combines the current estimation and the prior prediction with linear interpolation using weights computed from the features similarities of the two frames. Because data availability is a challenge in this domain, we propose a consistency-aware Knowledge Distillation training procedure for sparsely labeled datasets with few annotations. Using a large image segmentation model as a teacher to train the efficient SSP, we leverage the strong correlations between labeled and unlabeled frames in the same training videos to obtain high-quality supervision on all frames. KD-SSP obtains a significant temporal consistency increase over the base image segmentation model of 12.5% and 6.7% TC on UAVid and RuralScapes respectively, with higher accuracy and comparable inference speed. On these aerial datasets, KD-SSP provides a superior segmentation quality and inference speed trade-off than other video methods proposed for general applications and shows considerably higher consistency. The code will be made publicly available upon acceptance.
- Abstract(参考訳): RGBカメラからのセマンティックセグメンテーションは、自律飛行車の知覚に不可欠である。
キャプチャされたビデオによる予測の安定性は、その信頼性と拡張によって、エージェントの信頼性に最優先される。
本稿では,フレーム間のセマンティックな類似性伝搬による空中データの時間的一貫性を実現するために,リアルタイム推論に適した軽量なビデオセマンティックセマンティック・セマンティック・セマンティック・アプローチを提案する。
SSPは、カメラの動きを補うために、グローバルな登録アライメントによる効率的な画像分割モデルの予測を時間的に伝播する。
これは、2つのフレームの特徴的類似性から計算された重みを用いて、現在の推定と事前予測と線形補間を組み合わせる。
この領域では、データの可用性が課題であるため、少ないアノテーションでラベル付けされたデータセットに対して、一貫性を意識した知識蒸留トレーニング手順を提案する。
教師としての大きな画像分割モデルを用いて、同一のトレーニングビデオにおけるラベル付きフレームとラベルなしフレームの強い相関を利用して、全てのフレームの高品質な監視を行う。
KD-SSP は、UAVid と RuralScapes でそれぞれ 12.5% と 6.7% TC のベース画像セグメンテーションモデルに対して、高い精度と同等の推論速度で、時間的一貫性を著しく向上させる。
これらの空中データセットでは、KD-SSPは一般的な用途のために提案された他のビデオ手法よりも優れたセグメンテーション品質と推論速度のトレードオフを提供し、一貫性がかなり高い。
コードは受理時に公開されます。
関連論文リスト
- RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-27T08:39:38Z) - Homography Guided Temporal Fusion for Road Line and Marking Segmentation [73.47092021519245]
道路線やマーキングは、移動車両、影、グレアの存在下でしばしば閉鎖される。
本稿では,映像フレームを補足的に利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。
カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能が向上した軽量ネットワークの実現が期待できることを示す。
論文 参考訳(メタデータ) (2024-04-11T10:26:40Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Domain Adaptive Video Segmentation via Temporal Pseudo Supervision [46.38660541271893]
ビデオセマンティックセグメンテーションは、ラベル付きソースドメインから未ラベルのターゲットドメインに適応することで、制約をラベル付けするデータを緩和することができる。
我々は,対象映像から表現を効果的に表現するための一貫性トレーニングのアイデアを探索する,シンプルかつ効果的な方法である時間的擬似監督(TPS)を設計する。
TPSは実装が簡単で、訓練も安定しており、最先端技術と比較して優れた映像精度を実現する。
論文 参考訳(メタデータ) (2022-07-06T00:36:14Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Double Similarity Distillation for Semantic Image Segmentation [18.397968199629215]
本稿では,既存のコンパクトネットワークの分類精度を向上させるために,DSD(Double similarity distillation)と呼ばれる知識蒸留フレームワークを提案する。
具体的には,より詳細な空間依存性を捉えるために,残像マップを用いたPSD(Pixel-wise similarity distillation)モジュールを提案する。
セグメンテーションタスクとコンピュータビジョンタスクの特徴の違いを考慮し,カテゴリワイド類似度蒸留(CSD)モジュールを提案する。
論文 参考訳(メタデータ) (2021-07-19T02:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。