論文の概要: Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition
- arxiv url: http://arxiv.org/abs/2405.19917v3
- Date: Tue, 16 Jul 2024 14:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 20:49:21.415182
- Title: Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition
- Title(参考訳): エゴセントリックな行動認識のためのマルチモーダルなクロスドメインFew-Shot学習
- Authors: Masashi Hatano, Ryo Hachiuma, Ryo Fujii, Hideo Saito,
- Abstract要約: マルチモーダル入力とラベルなしターゲットデータを用いた,エゴセントリックな行動認識のための新しいドメイン間数ショット学習課題に対処する。
本稿では,エゴセントリックな行動認識に関わる2つの重要な課題を同時に解決する。
まず,教師モデルを用いた学生RGBモデルへのマルチモーダル蒸留の導入を提案する。
第2に,マスクによる入力トークン数を削減する手法であるアンサンブルマスク推論を導入する。
- 参考スコア(独自算出の注目度): 9.458578303096424
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We address a novel cross-domain few-shot learning task (CD-FSL) with multimodal input and unlabeled target data for egocentric action recognition. This paper simultaneously tackles two critical challenges associated with egocentric action recognition in CD-FSL settings: (1) the extreme domain gap in egocentric videos (e.g., daily life vs. industrial domain) and (2) the computational cost for real-world applications. We propose MM-CDFSL, a domain-adaptive and computationally efficient approach designed to enhance adaptability to the target domain and improve inference cost. To address the first challenge, we propose the incorporation of multimodal distillation into the student RGB model using teacher models. Each teacher model is trained independently on source and target data for its respective modality. Leveraging only unlabeled target data during multimodal distillation enhances the student model's adaptability to the target domain. We further introduce ensemble masked inference, a technique that reduces the number of input tokens through masking. In this approach, ensemble prediction mitigates the performance degradation caused by masking, effectively addressing the second issue. Our approach outperformed the state-of-the-art CD-FSL approaches with a substantial margin on multiple egocentric datasets, improving by an average of 6.12/6.10 points for 1-shot/5-shot settings while achieving $2.2$ times faster inference speed. Project page: https://masashi-hatano.github.io/MM-CDFSL/
- Abstract(参考訳): マルチモーダル入力とラベルなしターゲットデータを用いた,エゴセントリックな行動認識のための新しいクロスドメイン少ショット学習タスク(CD-FSL)について検討する。
本稿では,CD-FSL設定におけるエゴセントリックなアクション認識に関わる2つの重要な課題について,(1)エゴセントリックなビデオ(例えば,日々の生活と産業の領域)における極端なドメインギャップ,(2)実世界のアプリケーションにおける計算コストの2つを同時に解決する。
本稿では,対象領域への適応性を向上し,推論コストを改善するために,ドメイン適応的で効率的なアプローチであるMM-CDFSLを提案する。
最初の課題に対処するために,教師モデルを用いた学生RGBモデルへのマルチモーダル蒸留の導入を提案する。
各教師モデルは、それぞれのモダリティのソースデータとターゲットデータに基づいて、独立して訓練される。
マルチモーダル蒸留における未ラベルのターゲットデータのみを活用すると、学生モデルのターゲット領域への適応性が向上する。
さらに,マスクによる入力トークン数を削減する手法であるアンサンブルマスク推論を導入する。
このアプローチでは、アンサンブル予測はマスキングによる性能劣化を緩和し、2つ目の問題に効果的に対処する。
当社のアプローチは、最先端のCD-FSLアプローチよりも優れており、複数のエゴセントリックデータセットに対してかなりのマージンを有し、平均6.12/6.10ポイントの1ショット/5ショット設定で改善され、推論速度は2.2ドルの速さで達成された。
プロジェクトページ:https://masashi-hatano.github.io/MM-CDFSL/
関連論文リスト
- Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Enhancing Information Maximization with Distance-Aware Contrastive
Learning for Source-Free Cross-Domain Few-Shot Learning [55.715623885418815]
クロスドメインのFew-Shot Learningメソッドは、トレーニング前のフェーズでモデルをトレーニングするために、ソースドメインデータにアクセスする必要がある。
データプライバシやデータ送信やトレーニングコストの削減に対する懸念が高まっているため,ソースデータにアクセスせずにCDFSLソリューションを開発する必要がある。
本稿では,これらの課題に対処するための距離対応コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T12:10:24Z) - FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。
一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。
我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。
提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文 参考訳(メタデータ) (2022-11-07T09:38:34Z) - ME-D2N: Multi-Expert Domain Decompositional Network for Cross-Domain
Few-Shot Learning [95.78635058475439]
クロスドメインのFew-Shot Learningは、異なるドメインにわたるFew-Shot Learning問題に対処することを目的としている。
本稿では,ME-D2N(Multi-Expert Domain Decompositional Network)を技術的に貢献する。
本稿では,学生モデルを2つの領域関連部分に分解する新しい領域分解モジュールを提案する。
論文 参考訳(メタデータ) (2022-10-11T09:24:47Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - SB-MTL: Score-based Meta Transfer-Learning for Cross-Domain Few-Shot
Learning [3.6398662687367973]
本稿では,クロスドメインなFew-Shot学習問題に対処する,フレキシブルで効果的な手法を提案する。
本手法は,MAML最適化機能エンコーダとスコアベースグラフニューラルネットワークを用いて,トランスファーラーニングとメタラーニングを組み合わせる。
5,20,50ショット,および4つの対象領域において,精度の大幅な向上が観察された。
論文 参考訳(メタデータ) (2020-12-03T09:29:35Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。