論文の概要: Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models
- arxiv url: http://arxiv.org/abs/2406.01073v1
- Date: Mon, 3 Jun 2024 07:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:58:18.659850
- Title: Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models
- Title(参考訳): 映像ベースFew-Shot行動認識モデルのクロスドメイン能力の理解
- Authors: Georgia Markham, Mehala Balamurali, Andrew J. Hill,
- Abstract要約: Few-shot Action Recognition (FSAR) は、ビデオ中の新しいアクションをわずかに例を使って識別できるモデルを学ぶことを目的としている。
メタトレーニング中に見られるベースデータセットと評価に使用される新しいデータセットは、異なるドメインから得ることができると仮定すると、クロスドメインの少数ショット学習によってデータ収集とアノテーションコストが軽減される。
我々は、新しいクロスドメインタスクに対して、既存の最先端の単一ドメイン、転送ベース、およびクロスドメインFSARメソッドを体系的に評価する。
- 参考スコア(独自算出の注目度): 3.072340427031969
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Few-shot action recognition (FSAR) aims to learn a model capable of identifying novel actions in videos using only a few examples. In assuming the base dataset seen during meta-training and novel dataset used for evaluation can come from different domains, cross-domain few-shot learning alleviates data collection and annotation costs required by methods with greater supervision and conventional (single-domain) few-shot methods. While this form of learning has been extensively studied for image classification, studies in cross-domain FSAR (CD-FSAR) are limited to proposing a model, rather than first understanding the cross-domain capabilities of existing models. To this end, we systematically evaluate existing state-of-the-art single-domain, transfer-based, and cross-domain FSAR methods on new cross-domain tasks with increasing difficulty, measured based on the domain shift between the base and novel set. Our empirical meta-analysis reveals a correlation between domain difference and downstream few-shot performance, and uncovers several important insights into which model aspects are effective for CD-FSAR and which need further development. Namely, we find that as the domain difference increases, the simple transfer-learning approach outperforms other methods by over 12 percentage points, and under these more challenging cross-domain settings, the specialised cross-domain model achieves the lowest performance. We also witness state-of-the-art single-domain FSAR models which use temporal alignment achieving similar or worse performance than earlier methods which do not, suggesting existing temporal alignment techniques fail to generalise on unseen domains. To the best of our knowledge, we are the first to systematically study the CD-FSAR problem in-depth. We hope the insights and challenges revealed in our study inspires and informs future work in these directions.
- Abstract(参考訳): Few-shot Action Recognition (FSAR) は、ビデオ中の新しいアクションをわずかに例を使って識別できるモデルを学ぶことを目的としている。
メタトレーニング中に見られるベースデータセットと、評価に使用される新しいデータセットは、異なるドメインから得ることができると仮定すると、クロスドメインの少ショット学習は、より監督的な方法や従来の(単ドメインの)少ショットメソッドで必要とされるデータ収集とアノテーションコストを軽減します。
このような学習形態は画像分類のために広く研究されているが、クロスドメインFSAR(CD-FSAR)の研究は、既存のモデルのクロスドメイン能力を最初に理解するのではなく、モデルの提案に限られている。
そこで本研究では,既存の単一ドメイン,転送ベース,およびクロスドメインFSARメソッドを,ベースと新規セット間のドメインシフトに基づいて,難易度の高い新しいクロスドメインタスクに対して体系的に評価する。
実験的なメタアナリシスにより,領域差と下流数ショットのパフォーマンスの相関が明らかとなり,CD-FSARにどのモデル側面が有効か,さらなる開発が必要なのか,いくつかの重要な知見が得られた。
すなわち、ドメイン差が大きくなるにつれて、単純な転送学習アプローチは、他の手法よりも12%以上のパフォーマンスを示し、これらの難易度の高いクロスドメイン設定の下では、特別化されたクロスドメインモデルが最も低い性能を達成する。
また,従来の手法とよく似た,あるいは悪い性能を実現するために,時間的アライメントを用いた最先端の単一ドメインFSARモデルも見受けられ,既存の時間的アライメント手法は目に見えない領域を一般化できないことが示唆された。
我々の知る限りでは、我々はCD-FSAR問題を詳細に体系的に研究した最初の人物である。
私たちの研究で明らかになった洞察と課題は、これらの方向における今後の研究を刺激し、知らせてくれることを願っています。
関連論文リスト
- Stratified Domain Adaptation: A Progressive Self-Training Approach for Scene Text Recognition [1.2878987353423252]
シーンテキスト認識(STR)において、教師なしドメイン適応(UDA)がますます普及している。
本稿では,StrDA(Stratified Domain Adaptation)アプローチを導入し,学習プロセスにおける領域ギャップの段階的エスカレーションについて検討する。
本稿では,データサンプルの分布外および領域判別レベルを推定するために,領域判別器を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-13T16:40:48Z) - Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Few-Shot Classification in Unseen Domains by Episodic Meta-Learning
Across Visual Domains [36.98387822136687]
興味のあるカテゴリのラベル付き例がほとんどないため、いくつかのショット分類は、分類を実行することを目的としている。
本稿では,ドメイン一般化型少ショット分類のための一意学習フレームワークを提案する。
メタ学習戦略を進めることで、学習フレームワークは複数のソースドメインにまたがるデータを利用して、ドメイン不変の機能をキャプチャします。
論文 参考訳(メタデータ) (2021-12-27T06:54:11Z) - Improving Transferability of Domain Adaptation Networks Through Domain
Alignment Layers [1.3766148734487902]
マルチソースアン教師付きドメイン適応(MSDA)は、ソースモデルの袋から弱い知識を割り当てることで、ラベルのないドメインの予測子を学習することを目的としている。
我々は,DomaIn Alignment Layers (MS-DIAL) のマルチソースバージョンを予測器の異なるレベルに埋め込むことを提案する。
我々の手法は最先端のMSDA法を改善することができ、分類精度の相対利得は+30.64%に達する。
論文 参考訳(メタデータ) (2021-09-06T18:41:19Z) - f-Domain-Adversarial Learning: Theory and Algorithms [82.97698406515667]
教師なしのドメイン適応は、トレーニング中、ターゲットドメイン内のラベルなしデータにアクセス可能な、多くの機械学習アプリケーションで使用されている。
領域適応のための新しい一般化法を導出し、f-発散体の変分的特徴に基づく分布間の相違性の新しい尺度を利用する。
論文 参考訳(メタデータ) (2021-06-21T18:21:09Z) - Cross-Domain Similarity Learning for Face Recognition in Unseen Domains [90.35908506994365]
本研究では,cdt(cross-domain triplet, クロスドメイントリプレット)の損失を推測する新しいクロスドメインメトリック学習損失法を提案する。
CDT損失は、一つのドメインからコンパクトな特徴クラスタを強制することによって意味論的に意味のある特徴の学習を促進する。
本手法では,トレーニング中,注意深いハードペアサンプルマイニングおよびフィルタリング戦略は必要としない。
論文 参考訳(メタデータ) (2021-03-12T19:48:01Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。
我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。
ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-06-23T14:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。