論文の概要: Unsupervised Domain Adaptation for Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2107.11052v1
- Date: Fri, 23 Jul 2021 07:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 20:08:18.682405
- Title: Unsupervised Domain Adaptation for Video Semantic Segmentation
- Title(参考訳): ビデオセマンティクスセグメンテーションのための教師なし領域適応
- Authors: Inkyu Shin, Kwanyong Park, Sanghyun Woo, In So Kweon
- Abstract要約: セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 91.30558794056054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised Domain Adaptation for semantic segmentation has gained immense
popularity since it can transfer knowledge from simulation to real (Sim2Real)
by largely cutting out the laborious per pixel labeling efforts at real. In
this work, we present a new video extension of this task, namely Unsupervised
Domain Adaptation for Video Semantic Segmentation. As it became easy to obtain
large-scale video labels through simulation, we believe attempting to maximize
Sim2Real knowledge transferability is one of the promising directions for
resolving the fundamental data-hungry issue in the video. To tackle this new
problem, we present a novel two-phase adaptation scheme. In the first step, we
exhaustively distill source domain knowledge using supervised loss functions.
Simultaneously, video adversarial training (VAT) is employed to align the
features from source to target utilizing video context. In the second step, we
apply video self-training (VST), focusing only on the target data. To construct
robust pseudo labels, we exploit the temporal information in the video, which
has been rarely explored in the previous image-based self-training approaches.
We set strong baseline scores on 'VIPER to CityscapeVPS' adaptation scenario.
We show that our proposals significantly outperform previous image-based UDA
methods both on image-level (mIoU) and video-level (VPQ) evaluation metrics.
- Abstract(参考訳): セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションから実(Sim2Real)へ知識を伝達できるため、実際のピクセル単位のラベリングの労力を大幅に削減できるため、大きな人気を集めている。
本稿では,ビデオ意味セグメンテーションのための教師なし領域適応という,この課題の新しいビデオ拡張を提案する。
シミュレーションにより大規模ビデオラベルの取得が容易になったため,Sim2Realの知識伝達可能性の最大化は,ビデオの基本的データ不足を解決する上で有望な方法の1つであると信じている。
この問題に対処するため,新しい2相適応方式を提案する。
最初のステップでは、教師付き損失関数を用いて、ソースドメインの知識を徹底的に蒸留する。
同時に、ビデオコンテキストを利用して、ソースからターゲットへ特徴を調整するために、VAT(Video Adversarial Training)が使用される。
第2のステップでは,対象データのみに焦点を当てたビデオ自己学習(vst)を適用する。
頑健な擬似ラベルを構築するには,従来の画像に基づく自己学習手法ではめったに研究されていない映像の時間的情報を利用する。
我々は,「VIPER to CityscapeVPS」適応シナリオに強い基準スコアを設定した。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
関連論文リスト
- CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey [42.22801056661226]
行動認識などのビデオ分析タスクは、スマートヘルスケアなどの分野における応用の増大に対して、研究の関心が高まっている。
既存のデータセットでトレーニングされたビデオモデルは、現実世界のアプリケーションに直接デプロイした場合、大幅にパフォーマンスが低下する。
ラベル付きソースドメインからラベル付きターゲットドメインにビデオモデルを適用するために、ビデオアン教師付きドメイン適応(VUDA)が導入される。
論文 参考訳(メタデータ) (2022-11-17T05:05:42Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - CycDA: Unsupervised Cycle Domain Adaptation from Image to Video [26.30914383638721]
ドメイン・サイクル適応 (Domain Cycle Adaptation, CycDA) は、教師なし画像・ビデオ領域適応のためのサイクルベースのアプローチである。
我々は、画像からビデオまでのベンチマークデータセットと、混合ソース領域適応のためのベンチマークデータセットについて評価する。
論文 参考訳(メタデータ) (2022-03-30T12:22:26Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。