論文の概要: Simplifying Open-Set Video Domain Adaptation with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2301.03322v1
- Date: Mon, 9 Jan 2023 13:16:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 17:19:19.466058
- Title: Simplifying Open-Set Video Domain Adaptation with Contrastive Learning
- Title(参考訳): コントラスト学習によるオープンセットビデオドメイン適応の簡易化
- Authors: Giacomo Zara, Victor Guilherme Turrisi da Costa, Subhankar Roy, Paolo
Rota, Elisa Ricci
- Abstract要約: ラベル付きデータセットから非ラベル付きデータセットに予測モデルを適用するために、教師なしのビデオドメイン適応手法が提案されている。
我々は、OUVDA(Open-set Video Domain adapt)と呼ばれるより現実的なシナリオに対処し、ターゲットデータセットはソースと共有されていない"未知"セマンティックカテゴリを含む。
本稿では,ビデオデータ中の時間情報を自由に利用することで,特徴空間をよりよくクラスタ化できるビデオ指向の時間的コントラスト損失を提案する。
- 参考スコア(独自算出の注目度): 16.72734794723157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an effort to reduce annotation costs in action recognition, unsupervised
video domain adaptation methods have been proposed that aim to adapt a
predictive model from a labelled dataset (i.e., source domain) to an unlabelled
dataset (i.e., target domain). In this work we address a more realistic
scenario, called open-set video domain adaptation (OUVDA), where the target
dataset contains "unknown" semantic categories that are not shared with the
source. The challenge lies in aligning the shared classes of the two domains
while separating the shared classes from the unknown ones. In this work we
propose to address OUVDA with an unified contrastive learning framework that
learns discriminative and well-clustered features. We also propose a
video-oriented temporal contrastive loss that enables our method to better
cluster the feature space by exploiting the freely available temporal
information in video data. We show that discriminative feature space
facilitates better separation of the unknown classes, and thereby allows us to
use a simple similarity based score to identify them. We conduct thorough
experimental evaluation on multiple OUVDA benchmarks and show the effectiveness
of our proposed method against the prior art.
- Abstract(参考訳): アクション認識におけるアノテーションコストを削減するため、ラベル付きデータセット(すなわちソースドメイン)からラベル付きデータセット(すなわちターゲットドメイン)への予測モデルの適用を目的とした、教師なしビデオドメイン適応手法が提案されている。
この研究で我々は、OUVDA(Open-set Video Domain adaptation)と呼ばれるより現実的なシナリオに取り組み、ターゲットデータセットはソースと共有されていない"未知"の意味圏を含む。
課題は、共有クラスを未知のクラスから分離しながら、2つのドメインの共有クラスを整列させることである。
本稿では,識別的・密集した特徴を学習する統一的なコントラスト学習フレームワークで,オーヴィダに対処することを提案する。
また,ビデオデータから利用できる時間情報を活用することで,特徴空間のクラスタリングを向上するビデオ指向の時間的コントラスト損失を提案する。
識別的特徴空間は未知のクラスをよりよく分離し、単純な類似度に基づくスコアを用いて識別することができることを示す。
我々は,複数のOUVDAベンチマークを徹底的に評価し,提案手法の先行技術に対する有効性を示す。
関連論文リスト
- Uncertainty-guided Open-Set Source-Free Unsupervised Domain Adaptation with Target-private Class Segregation [22.474866164542302]
UDAアプローチはソースとターゲットドメインが同じラベル空間を共有していると一般的に仮定する。
本稿では、SF-OSDA(Source-Free Open-set Domain Adaptation)設定の課題について考察する。
本稿では,サンプルを複数の未知のクラスに分離することで,ターゲット・プライベートカテゴリの粒度を利用したSF-OSDAの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T13:52:00Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Exploiting Instance-based Mixed Sampling via Auxiliary Source Domain
Supervision for Domain-adaptive Action Detection [75.38704117155909]
本稿では,新しいドメイン適応型行動検出手法と新しい適応プロトコルを提案する。
クロスドメイン混合サンプリングと組み合わせた自己学習は、UDAコンテキストにおいて顕著なパフォーマンス向上を示した。
我々は提案したフレームワークをドメイン適応アクション・インスタンス・ミックス(DA-AIM)と呼ぶ。
論文 参考訳(メタデータ) (2022-09-28T22:03:25Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Contrast and Mix: Temporal Contrastive Video Domain Adaptation with
Background Mixing [55.73722120043086]
Contrast and Mix(CoMix)は、教師なしビデオドメイン適応のための識別的不変な特徴表現を学習することを目的とした、新しいコントラスト学習フレームワークである。
まず,2つの異なる速度でラベル付きビデオの符号化表現の類似性を最大化することにより,時間的コントラスト学習を用いてドメインギャップをブリッジする。
第2に,両ドメイン間で共有されるアクションセマンティクスを活用するために,アンカー毎の肯定的な追加を可能にするバックグラウンドミキシングを用いることにより,時間的コントラスト損失の新たな拡張を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:03:29Z) - Seeking Similarities over Differences: Similarity-based Domain Alignment
for Adaptive Object Detection [86.98573522894961]
本研究では,Unsupervised Domain Adaptation (UDA) アルゴリズムが検出に使用するコンポーネントを一般化するフレームワークを提案する。
具体的には、最適な設計選択を生かした新しいUDAアルゴリズムViSGAを提案し、インスタンスレベルの特徴を集約する単純だが効果的な方法を提案する。
類似性に基づくグループ化と対角トレーニングの両方により、モデルでは、ゆるやかに整列されたドメインにまたがるすべてのインスタンスにマッチせざるを得ず、機能グループを粗い整列することに集中することが可能であることが示されています。
論文 参考訳(メタデータ) (2021-10-04T13:09:56Z) - Conditional Extreme Value Theory for Open Set Video Domain Adaptation [17.474956295874797]
本稿では,ソースとターゲットデータ間の領域差を軽減するために,オープンセットの映像領域適応手法を提案する。
負の伝達問題を緩和するために、サンプルエントロピーからしきい値までの距離によって計算された重みを、対向学習に活用する。
提案手法は,小規模と大規模の両方のクロスドメインビデオデータセットに対して徹底的に評価されている。
論文 参考訳(メタデータ) (2021-09-01T10:51:50Z) - On Universal Black-Box Domain Adaptation [53.7611757926922]
実践的な展開という観点から,ドメイン適応の最小限の制約条件について検討する。
ソースモデルのインターフェースのみがターゲットドメインで利用可能であり、2つのドメイン間のラベル空間関係が異なることや未知であることが許されている。
対象試料の局所近傍における予測の整合性によって正規化された自己訓練フレームワークに統一することを提案する。
論文 参考訳(メタデータ) (2021-04-10T02:21:09Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。