論文の概要: Augmenting and Aligning Snippets for Few-Shot Video Domain Adaptation
- arxiv url: http://arxiv.org/abs/2303.10451v1
- Date: Sat, 18 Mar 2023 16:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 19:08:15.338553
- Title: Augmenting and Aligning Snippets for Few-Shot Video Domain Adaptation
- Title(参考訳): Few-Shot Video Domain Adaptationのためのスニペットの強化と調整
- Authors: Yuecong Xu, Jianfei Yang, Yunjiao Zhou, Zhenghua Chen, Min Wu, Xiaoli
Li
- Abstract要約: Video Unsupervised Domain Adaptation (VUDA)は、ビデオモデルの堅牢性と転送性を改善するために導入された。
FSVDA(Few-Shot Video-based Domain Adaptation)のシナリオでは,対象とするビデオサンプルをわずかに限定してビデオモデルを適用する。
本稿では,FSVDAをスニペットレベルで処理するための新しいSSA2lignを提案する。
- 参考スコア(独自算出の注目度): 22.097165083633175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For video models to be transferred and applied seamlessly across video tasks
in varied environments, Video Unsupervised Domain Adaptation (VUDA) has been
introduced to improve the robustness and transferability of video models.
However, current VUDA methods rely on a vast amount of high-quality unlabeled
target data, which may not be available in real-world cases. We thus consider a
more realistic \textit{Few-Shot Video-based Domain Adaptation} (FSVDA) scenario
where we adapt video models with only a few target video samples. While a few
methods have touched upon Few-Shot Domain Adaptation (FSDA) in images and in
FSVDA, they rely primarily on spatial augmentation for target domain expansion
with alignment performed statistically at the instance level. However, videos
contain more knowledge in terms of rich temporal and semantic information,
which should be fully considered while augmenting target domains and performing
alignment in FSVDA. We propose a novel SSA2lign to address FSVDA at the snippet
level, where the target domain is expanded through a simple snippet-level
augmentation followed by the attentive alignment of snippets both semantically
and statistically, where semantic alignment of snippets is conducted through
multiple perspectives. Empirical results demonstrate state-of-the-art
performance of SSA2lign across multiple cross-domain action recognition
benchmarks.
- Abstract(参考訳): 様々な環境下でビデオモデルをシームレスに転送・適用するために、ビデオモデルの堅牢性と転送性を改善するためにVUDA(Video Unsupervised Domain Adaptation)が導入された。
しかし、現在のvudaメソッドは、実際のケースでは利用できない大量の高品質なラベルなしターゲットデータに依存している。
したがって、より現実的な \textit{few-shot video-based domain adaptation} (fsvda) シナリオを検討し、対象とするビデオサンプルをほんの数本でビデオモデルに適用する。
画像やFSVDAではFew-Shot Domain Adaptation (FSDA) にいくつかの手法が触れられているが、それらは主に、インスタンスレベルで統計的にアライメントされたターゲット領域拡張のための空間拡張に依存している。
しかし、ビデオには、より豊富な時間的・意味的な情報があり、ターゲットドメインを拡大し、FSVDAでアライメントを行う際に、十分に考慮すべきである。
そこで本研究では,FSVDAをスニペットレベルで扱う新しいSSA2lignを提案する。このSSA2lignは,単純なスニペットレベルの拡張によって対象ドメインを拡張し,スニペットのセマンティックアライメントを意味的に,統計的に,そしてスニペットのセマンティックアライメントを複数の視点で行う。
実験結果は、複数のクロスドメインアクション認識ベンチマークにおけるssa2lignの最先端性能を示す。
関連論文リスト
- Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - Spatio-Temporal Pixel-Level Contrastive Learning-based Source-Free
Domain Adaptation for Video Semantic Segmentation [117.39092621796753]
Source Domain Adaptation(SFDA)セットアップは、ソースデータにアクセスすることなく、ターゲットドメインにソーストレーニングされたモデルを適用することを目的としている。
情報源データの欠如に対処するために,時間情報の相関を最大限に活用する新しい手法を提案する。
実験によると、PixelLは現在のUDAやFDAのアプローチと比較して、ベンチマークの非最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-25T05:06:23Z) - Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey [42.22801056661226]
行動認識などのビデオ分析タスクは、スマートヘルスケアなどの分野における応用の増大に対して、研究の関心が高まっている。
既存のデータセットでトレーニングされたビデオモデルは、現実世界のアプリケーションに直接デプロイした場合、大幅にパフォーマンスが低下する。
ラベル付きソースドメインからラベル付きターゲットドメインにビデオモデルを適用するために、ビデオアン教師付きドメイン適応(VUDA)が導入される。
論文 参考訳(メタデータ) (2022-11-17T05:05:42Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Learning Temporal Consistency for Source-Free Video Domain Adaptation [16.230405375192262]
実世界のアプリケーションでは、ソースビデオ領域の主題とシーンは、対象のビデオ領域の主題と無関係であるべきである。
このような問題に対処するため、より実用的なドメイン適応シナリオを、SFVDA(Source-Free Video-based Domain Adaptation)として定式化している。
本稿では,時間的一貫性を学習してSFVDAに対処するための新しい注意時間一貫性ネットワーク(ATCoN)を提案する。
論文 参考訳(メタデータ) (2022-03-09T07:33:36Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Semi-Supervised Domain Adaptation via Adaptive and Progressive Feature
Alignment [32.77436219094282]
SSDASはラベル付きターゲットサンプルを、ラベル付きソースサンプルとラベルなしターゲットサンプルの間に適応的かつプログレッシブな特徴アライメントのためのアンカーとして採用している。
さらに、反復学習過程において、異種音源の特徴を高信頼目標特徴に置き換える。
広範な実験により、提案されたSSDASは、多くのベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2021-06-05T09:12:50Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。