論文の概要: EXTERN: Leveraging Endo-Temporal Regularization for Black-box Video
Domain Adaptation
- arxiv url: http://arxiv.org/abs/2208.05187v1
- Date: Wed, 10 Aug 2022 07:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:54:44.732963
- Title: EXTERN: Leveraging Endo-Temporal Regularization for Black-box Video
Domain Adaptation
- Title(参考訳): EXTERN: Black-box Video Domain Adaptation における時間内正規化の活用
- Authors: Yuecong Xu, Jianfei Yang, Min Wu, Xiaoli Li, Lihua Xie, Zhenghua Chen
- Abstract要約: Black-box Video Domain Adaptation (BVDA)は、ソースビデオモデルをブラックボックス予測子としてのみ提供する、より現実的で困難なシナリオである。
本研究では,マスク・ツー・ミックス戦略とビデオ調整正規化を適用して,新しいEdoとeXo-temporal Regularized Network(EXTERN)を提案する。
- 参考スコア(独自算出の注目度): 36.8236874357225
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To enable video models to be applied seamlessly across video tasks in
different environments, various Video Unsupervised Domain Adaptation (VUDA)
methods have been proposed to improve the robustness and transferability of
video models. Despite improvements made in model robustness, these VUDA methods
require access to both source data and source model parameters for adaptation,
raising serious data privacy and model portability issues. To cope with the
above concerns, this paper firstly formulates Black-box Video Domain Adaptation
(BVDA) as a more realistic yet challenging scenario where the source video
model is provided only as a black-box predictor. While a few methods for
Black-box Domain Adaptation (BDA) are proposed in image domain, these methods
cannot apply to video domain since video modality has more complicated temporal
features that are harder to align. To address BVDA, we propose a novel Endo and
eXo-TEmporal Regularized Network (EXTERN) by applying mask-to-mix strategies
and video-tailored regularizations: endo-temporal regularization and
exo-temporal regularization, performed across both clip and temporal features,
while distilling knowledge from the predictions obtained from the black-box
predictor. Empirical results demonstrate the state-of-the-art performance of
EXTERN across various cross-domain closed-set and partial-set action
recognition benchmarks, which even surpassed most existing video domain
adaptation methods with source data accessibility.
- Abstract(参考訳): 異なる環境におけるビデオタスク間でシームレスにビデオモデルを適用できるようにするために,ビデオモデルの堅牢性と転送性を改善するために,VUDA法が提案されている。
モデル堅牢性の改善にもかかわらず、これらのVUDAメソッドは、適応のためにソースデータとソースモデルパラメータの両方にアクセスする必要がある。
そこで本稿では,まず,ブラックボックス映像領域適応(bvda)を,ソース映像モデルをブラックボックス予測器としてのみ提供する,より現実的かつ挑戦的なシナリオとして定式化する。
画像領域ではブラックボックス・ドメイン適応(BDA)の手法がいくつか提案されているが、ビデオのモダリティがより複雑な時間的特徴を持つため、これらの手法はビデオ領域に適用できない。
そこで本研究では,bvdaに対応するために,黒ボックス予測器から得られた予測から知識を抽出しつつ,クリップとテンポラリの双方で,マスク・ツー・ミックス戦略と映像対応正規化(endo-temporal regularization and exo-temporal regularization)を適用することで,新たなendoおよびexo-temporal regularized network(extern)を提案する。
実験的な結果から,EXTERNの様々なクロスドメインクローズドセットおよび部分セット動作認識ベンチマークにおける性能が,ソースデータアクセシビリティを持つ既存のビデオドメイン適応手法を超越したことを示す。
関連論文リスト
- Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - MeDM: Mediating Image Diffusion Models for Video-to-Video Translation
with Temporal Correspondence Guidance [10.457759140533168]
本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的な方法であるMeDMを提案する。
我々は、生成したフレームの物理的制約を強制し、独立したフレーム単位のスコアを仲介する実用的な符号化を構築するために、明示的な光学フローを用いる。
論文 参考訳(メタデータ) (2023-08-19T17:59:12Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Learning Temporal Consistency for Source-Free Video Domain Adaptation [16.230405375192262]
実世界のアプリケーションでは、ソースビデオ領域の主題とシーンは、対象のビデオ領域の主題と無関係であるべきである。
このような問題に対処するため、より実用的なドメイン適応シナリオを、SFVDA(Source-Free Video-based Domain Adaptation)として定式化している。
本稿では,時間的一貫性を学習してSFVDAに対処するための新しい注意時間一貫性ネットワーク(ATCoN)を提案する。
論文 参考訳(メタデータ) (2022-03-09T07:33:36Z) - Learning Cross-modal Contrastive Features for Video Domain Adaptation [138.75196499580804]
本稿では、クロスモーダルとクロスドメインの特徴表現を同時に正規化する、ビデオドメイン適応のための統合フレームワークを提案する。
具体的には、ドメインの各モダリティを視点として扱い、コントラスト学習手法を適切に設計されたサンプリング戦略で活用する。
論文 参考訳(メタデータ) (2021-08-26T18:14:18Z) - Generative Adversarial Networks for Video-to-Video Domain Adaptation [32.670977389990306]
本稿では,ビデオベースデータを異なるドメイン間で転送するための新しい生成逆ネットワーク(GAN, VideoGAN)を提案する。
映像のフレームには類似した内容と撮像条件がある可能性があるため、提案したビデオGANは、映像内部の一貫性を維持するためのX字型ジェネレータを備えている。
CVC-ClinicとETIS-Laribの2つの大腸内視鏡的データセットを用いて,ビデオGANの性能評価を行った。
論文 参考訳(メタデータ) (2020-04-17T04:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。