論文の概要: CycDA: Unsupervised Cycle Domain Adaptation from Image to Video
- arxiv url: http://arxiv.org/abs/2203.16244v3
- Date: Wed, 22 Mar 2023 11:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:44:11.471054
- Title: CycDA: Unsupervised Cycle Domain Adaptation from Image to Video
- Title(参考訳): cycda: 画像からビデオへの教師なしサイクルドメイン適応
- Authors: Wei Lin, Anna Kukleva, Kunyang Sun, Horst Possegger, Hilde Kuehne,
Horst Bischof
- Abstract要約: ドメイン・サイクル適応 (Domain Cycle Adaptation, CycDA) は、教師なし画像・ビデオ領域適応のためのサイクルベースのアプローチである。
我々は、画像からビデオまでのベンチマークデータセットと、混合ソース領域適応のためのベンチマークデータセットについて評価する。
- 参考スコア(独自算出の注目度): 26.30914383638721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although action recognition has achieved impressive results over recent
years, both collection and annotation of video training data are still
time-consuming and cost intensive. Therefore, image-to-video adaptation has
been proposed to exploit labeling-free web image source for adapting on
unlabeled target videos. This poses two major challenges: (1) spatial domain
shift between web images and video frames; (2) modality gap between image and
video data. To address these challenges, we propose Cycle Domain Adaptation
(CycDA), a cycle-based approach for unsupervised image-to-video domain
adaptation by leveraging the joint spatial information in images and videos on
the one hand and, on the other hand, training an independent spatio-temporal
model to bridge the modality gap. We alternate between the spatial and
spatio-temporal learning with knowledge transfer between the two in each cycle.
We evaluate our approach on benchmark datasets for image-to-video as well as
for mixed-source domain adaptation achieving state-of-the-art results and
demonstrating the benefits of our cyclic adaptation. Code is available at
\url{https://github.com/wlin-at/CycDA}.
- Abstract(参考訳): 近年、アクション認識は目覚ましい成果を上げているが、ビデオトレーニングデータの収集とアノテーションはいまだに時間がかかり、費用がかかる。
そのため,ラベルのないweb画像ソースを,ラベルのないターゲットビデオに適応させるために,映像から映像への適応が提案されている。
これは,(1)Web画像とビデオフレーム間の空間的領域シフト,(2)画像とビデオデータのモダリティギャップ,という2つの大きな課題を提起する。
これらの課題に対処するために,画像とビデオの連接空間情報を活用することで,教師なし画像とビデオの領域適応のためのサイクルベースアプローチであるCycDAを提案し,一方,モードギャップを埋めるために,独立した時空間モデルを訓練する。
空間的・時空間的学習と,各サイクルにおける知識伝達を交互に行う。
我々は、画像から映像までのベンチマークデータセットと、最先端の成果を達成し、循環適応の利点を実証する混合ソースドメイン適応に対するアプローチを評価した。
コードは \url{https://github.com/wlin-at/CycDA} で入手できる。
関連論文リスト
- Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Contrast and Mix: Temporal Contrastive Video Domain Adaptation with
Background Mixing [55.73722120043086]
Contrast and Mix(CoMix)は、教師なしビデオドメイン適応のための識別的不変な特徴表現を学習することを目的とした、新しいコントラスト学習フレームワークである。
まず,2つの異なる速度でラベル付きビデオの符号化表現の類似性を最大化することにより,時間的コントラスト学習を用いてドメインギャップをブリッジする。
第2に,両ドメイン間で共有されるアクションセマンティクスを活用するために,アンカー毎の肯定的な追加を可能にするバックグラウンドミキシングを用いることにより,時間的コントラスト損失の新たな拡張を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:03:29Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Dual-Triplet Metric Learning for Unsupervised Domain Adaptation in
Video-Based Face Recognition [8.220945563455848]
新しいビデオカメラでキャプチャしたラベルのないトラックレットを用いて、シームズネットワークのCNN埋め込みに適応する新しいディープドメイン適応(DA)法を提案する。
提案手法は,異なるトレーニングシナリオ下での深層シームズネットワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2020-02-11T05:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。