論文の概要: Learning Cross-modal Contrastive Features for Video Domain Adaptation
- arxiv url: http://arxiv.org/abs/2108.11974v1
- Date: Thu, 26 Aug 2021 18:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:16:11.032243
- Title: Learning Cross-modal Contrastive Features for Video Domain Adaptation
- Title(参考訳): ビデオ領域適応のためのクロスモーダルコントラスト特徴の学習
- Authors: Donghyun Kim, Yi-Hsuan Tsai, Bingbing Zhuang, Xiang Yu, Stan Sclaroff,
Kate Saenko, Manmohan Chandraker
- Abstract要約: 本稿では、クロスモーダルとクロスドメインの特徴表現を同時に正規化する、ビデオドメイン適応のための統合フレームワークを提案する。
具体的には、ドメインの各モダリティを視点として扱い、コントラスト学習手法を適切に設計されたサンプリング戦略で活用する。
- 参考スコア(独自算出の注目度): 138.75196499580804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning transferable and domain adaptive feature representations from videos
is important for video-relevant tasks such as action recognition. Existing
video domain adaptation methods mainly rely on adversarial feature alignment,
which has been derived from the RGB image space. However, video data is usually
associated with multi-modal information, e.g., RGB and optical flow, and thus
it remains a challenge to design a better method that considers the cross-modal
inputs under the cross-domain adaptation setting. To this end, we propose a
unified framework for video domain adaptation, which simultaneously regularizes
cross-modal and cross-domain feature representations. Specifically, we treat
each modality in a domain as a view and leverage the contrastive learning
technique with properly designed sampling strategies. As a result, our
objectives regularize feature spaces, which originally lack the connection
across modalities or have less alignment across domains. We conduct experiments
on domain adaptive action recognition benchmark datasets, i.e., UCF, HMDB, and
EPIC-Kitchens, and demonstrate the effectiveness of our components against
state-of-the-art algorithms.
- Abstract(参考訳): アクション認識などのビデオ関連タスクにおいて,ビデオから伝達可能な,ドメイン適応的な特徴表現を学習することが重要である。
既存のビデオ領域適応法は主にRGB画像空間から派生した対角的特徴アライメントに依存している。
しかし、ビデオデータは通常、RGBや光フローなどのマルチモーダル情報と関連付けられており、クロスドメイン適応設定の下でのクロスモーダル入力を考慮したより良い手法を設計することは依然として困難である。
そこで本研究では,クロスモーダルとクロスドメインの特徴表現を同時に正規化する,ビデオドメイン適応のための統合フレームワークを提案する。
具体的には、ドメインの各モダリティを視点として扱い、コントラスト学習手法を適切に設計されたサンプリング戦略で活用する。
その結果、当初モダリティ間の接続が欠如していたり、ドメイン間のアライメントが低かったりした特徴空間を正規化することが目的となった。
我々は、UCF、HMDB、EPIC-Kitchensといったドメイン適応型行動認識ベンチマークデータセットの実験を行い、最先端のアルゴリズムに対する我々のコンポーネントの有効性を実証する。
関連論文リスト
- Improving Anomaly Segmentation with Multi-Granularity Cross-Domain
Alignment [17.086123737443714]
異常セグメンテーションは、画像中の非定型物体を識別する上で重要な役割を担っている。
既存の手法は合成データに顕著な結果を示すが、合成データドメインと実世界のデータドメインの相違を考慮できないことが多い。
シーンと個々のサンプルレベルの両方で、ドメイン間の機能を調和させるのに適した、マルチグラニュラリティ・クロスドメインアライメントフレームワークを導入します。
論文 参考訳(メタデータ) (2023-08-16T22:54:49Z) - Cross-Modality Domain Adaptation for Freespace Detection: A Simple yet
Effective Baseline [21.197212665408262]
フリースペース検出は、カメラが捉えた画像の各ピクセルを、ドライビング可能または非駆動可能と分類することを目的としている。
我々はRGB画像と深度画像から生成された表面正規写像の両方を利用するクロスモダリティ領域適応フレームワークを開発した。
ソースドメイン(合成データ)とターゲットドメイン(実世界のデータ)のドメインギャップを埋めるため、選択的特徴アライメント(SFA)モジュールも提案する。
論文 参考訳(メタデータ) (2022-10-06T15:31:49Z) - Contrast and Mix: Temporal Contrastive Video Domain Adaptation with
Background Mixing [55.73722120043086]
Contrast and Mix(CoMix)は、教師なしビデオドメイン適応のための識別的不変な特徴表現を学習することを目的とした、新しいコントラスト学習フレームワークである。
まず,2つの異なる速度でラベル付きビデオの符号化表現の類似性を最大化することにより,時間的コントラスト学習を用いてドメインギャップをブリッジする。
第2に,両ドメイン間で共有されるアクションセマンティクスを活用するために,アンカー毎の肯定的な追加を可能にするバックグラウンドミキシングを用いることにより,時間的コントラスト損失の新たな拡張を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:03:29Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z) - Adaptive Intermediate Representations for Video Understanding [50.64187463941215]
映像理解の中間表現としてセマンティックセグメンテーションを活用する新しい方法を紹介します。
本稿では,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習する汎用フレームワークを提案する。
我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。
論文 参考訳(メタデータ) (2021-04-14T21:37:23Z) - Variational Interaction Information Maximization for Cross-domain
Disentanglement [34.08140408283391]
ドメイン間の絡み合いは、ドメイン不変表現とドメイン固有表現に分割された表現の学習の問題である。
複数の情報制約の共用目的として,ドメイン不変表現とドメイン固有表現の同時学習を行った。
ゼロショットスケッチに基づく画像検索タスクにおいて,本モデルが最新性能を達成することを示した。
論文 参考訳(メタデータ) (2020-12-08T07:11:35Z) - Channel-wise Alignment for Adaptive Object Detection [66.76486843397267]
遺伝的物体検出は、ディープ畳み込みニューラルネットワークの開発によって大いに促進されている。
このタスクの既存の方法は、通常、画像全体や関心の対象に基づいて、ハイレベルなアライメントに注意を向ける。
本稿では,チャネルワイドアライメント(チャネルワイドアライメント)という,まったく異なる観点からの適応を実現する。
論文 参考訳(メタデータ) (2020-09-07T02:42:18Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。