論文の概要: Channel-Temporal Attention for First-Person Video Domain Adaptation
- arxiv url: http://arxiv.org/abs/2108.07846v2
- Date: Thu, 19 Aug 2021 09:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 11:08:47.715370
- Title: Channel-Temporal Attention for First-Person Video Domain Adaptation
- Title(参考訳): ファーストパーソンビデオ領域適応のためのチャンネルタイムアテンション
- Authors: Xianyuan Liu, Shuo Zhou, Tao Lei, Haiping Lu
- Abstract要約: Unsupervised Domain Adaptation (UDA)は、ラベル付きソースデータから同じカテゴリのラベル付きターゲットデータに知識を転送することができる。
ファースト・パーソン・アクション認識のためのUDAは、データセットの欠如と、ファースト・パーソン・ビデオの特徴を限定的に考慮し、未解決の問題である。
- 参考スコア(独自算出の注目度): 14.098059896560212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Domain Adaptation (UDA) can transfer knowledge from labeled
source data to unlabeled target data of the same categories. However, UDA for
first-person action recognition is an under-explored problem, with lack of
datasets and limited consideration of first-person video characteristics. This
paper focuses on addressing this problem. Firstly, we propose two small-scale
first-person video domain adaptation datasets: ADL$_{small}$ and GTEA-KITCHEN.
Secondly, we introduce channel-temporal attention blocks to capture the
channel-wise and temporal-wise relationships and model their inter-dependencies
important to first-person vision. Finally, we propose a Channel-Temporal
Attention Network (CTAN) to integrate these blocks into existing architectures.
CTAN outperforms baselines on the two proposed datasets and one existing
dataset EPIC$_{cvpr20}$.
- Abstract(参考訳): Unsupervised Domain Adaptation (UDA)は、ラベル付きソースデータから同じカテゴリのラベル付きターゲットデータに知識を転送することができる。
しかし、一対一の行動認識のためのUDAは、データセットの欠如と一対一の映像特性の限定的な考慮により、未解決の問題である。
本稿ではこの問題に対処することに焦点を当てる。
まず,ADL$_{small}$とGTEA-KITCHENの2つの小規模ビデオドメイン適応データセットを提案する。
第2に,チャネル間および時間的関係を捉えるために,チャネル時空間的注意ブロックを導入し,その相互依存度を一人称視覚に重要なものにモデル化する。
最後に,Channel-Temporal Attention Network (CTAN)を提案し,これらのブロックを既存のアーキテクチャに統合する。
CTANは2つの提案されたデータセットと既存のデータセットEPIC$_{cvpr20}$でベースラインを上回ります。
関連論文リスト
- Object-based (yet Class-agnostic) Video Domain Adaptation [78.34712426922519]
我々はODAPT(Object-based (yet Class-Agnostic) Video Domain Adaptation)を提案する。
ODAPTは、既存のアクション認識システムを新しいドメインに適応するための、シンプルで効果的なフレームワークである。
我々のモデルは、Epic-Kitchensのキッチン間で適応する場合の+6.5の増加と、Epic-KitchensとEGTEAデータセット間の適応率の+3.1の増加を実現している。
論文 参考訳(メタデータ) (2023-11-29T01:17:38Z) - Learnable Data Augmentation for One-Shot Unsupervised Domain Adaptation [32.66564360482646]
本稿では,ワンショット・アン教師なしドメイン適応問題に対処するために,学習可能なデータ拡張に基づくフレームワークを提案する。
筆者らのLearnAug-UDAは、ソースデータの強化方法を学び、ターゲットと知覚的に類似している。
提案手法は、よく知られた2つのドメイン適応ベンチマーク上で、最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-10-03T16:57:05Z) - Confidence Attention and Generalization Enhanced Distillation for
Continuous Video Domain Adaptation [62.458968086881555]
連続ビデオドメイン適応(CVDA、Continuous Video Domain Adaptation)は、ソースモデルが個々の変更対象ドメインに適応する必要があるシナリオである。
CVDAの課題に対処するため,遺伝子組み換え型自己知識解離(CART)を用いた信頼性保証ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-18T16:40:10Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Adaptive graph convolutional networks for weakly supervised anomaly
detection in videos [42.3118758940767]
本稿では,映像セグメント間のコンテキスト関係をモデル化するために,弱教師付き適応グラフ畳み込みネットワーク(WAGCN)を提案する。
各セグメントの異常確率スコアを生成する際に、他のビデオセグメントが現在のセグメントに与える影響を十分に検討する。
論文 参考訳(メタデータ) (2022-02-14T06:31:34Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Unsupervised Multi-Source Domain Adaptation for Person Re-Identification [39.817734080890695]
unsupervised domain adaptation (uda) method for person re-idification (re-id) ラベル付きソースデータからラベル付きターゲットデータへの再id知識の転送を目的としている。
マルチソースの概念を UDA person re-ID フィールドに導入し、トレーニング中に複数のソースデータセットを使用する。
提案手法は,最先端のuda person re-idメソッドを高いマージンで上回り,後処理手法を使わずに教師付きアプローチに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-04-27T03:33:35Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。