Fugu-MT 論文翻訳(概要): Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition

論文の概要: Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition

arxiv url: http://arxiv.org/abs/2405.19917v2
Date: Fri, 31 May 2024 05:29:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 18:44:15.904629
Title: Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition
Title（参考訳）: エゴセントリックな行動認識のためのマルチモーダルなクロスドメインFew-Shot学習
Authors: Masashi Hatano, Ryo Hachiuma, Ryo Fujii, Hideo Saito,
Abstract要約: マルチモーダル入力とラベルなしターゲットデータを用いた,エゴセントリックな行動認識のための新しいドメイン間数ショット学習課題に対処する。本稿では,対象領域への適応性を向上し,推論速度を向上させるために,ドメイン適応的で効率的なアプローチであるMM-CDFSLを提案する。
参考スコア（独自算出の注目度）: 9.458578303096424
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We address a novel cross-domain few-shot learning task (CD-FSL) with multimodal input and unlabeled target data for egocentric action recognition. This paper simultaneously tackles two critical challenges associated with egocentric action recognition in CD-FSL settings: (1) the extreme domain gap in egocentric videos (\eg, daily life vs. industrial domain) and (2) the computational cost for real-world applications. We propose MM-CDFSL, a domain-adaptive and computationally efficient approach designed to enhance adaptability to the target domain and improve inference speed. To address the first challenge, we propose the incorporation of multimodal distillation into the student RGB model using teacher models. Each teacher model is trained independently on source and target data for its respective modality. Leveraging only unlabeled target data during multimodal distillation enhances the student model's adaptability to the target domain. We further introduce ensemble masked inference, a technique that reduces the number of input tokens through masking. In this approach, ensemble prediction mitigates the performance degradation caused by masking, effectively addressing the second issue. Our approach outperformed the state-of-the-art CD-FSL approaches with a substantial margin on multiple egocentric datasets, improving by an average of 6.12/6.10 points for 1-shot/5-shot settings while achieving $2.2$ times faster inference speed. Project page: https://masashi-hatano.github.io/MM-CDFSL/
Abstract（参考訳）: マルチモーダル入力とラベルなしターゲットデータを用いた,エゴセントリックな行動認識のための新しいクロスドメイン少ショット学習タスク(CD-FSL)について検討する。本稿では,CD-FSL設定におけるエゴセントリックなアクション認識に関わる2つの重要な課題について,(1)エゴセントリックなビデオの極端な領域間差,(2)実世界のアプリケーションにおける計算コストについて考察する。本稿では,対象領域への適応性を向上し,推論速度を向上させるために,ドメイン適応的で効率的なアプローチであるMM-CDFSLを提案する。最初の課題に対処するために,教師モデルを用いた学生RGBモデルへのマルチモーダル蒸留の導入を提案する。各教師モデルは、それぞれのモダリティのソースデータとターゲットデータに基づいて、独立して訓練される。マルチモーダル蒸留における未ラベルのターゲットデータのみを活用すると、学生モデルのターゲット領域への適応性が向上する。さらに,マスクによる入力トークン数を削減する手法であるアンサンブルマスク推論を導入する。このアプローチでは、アンサンブル予測はマスキングによる性能劣化を緩和し、2つ目の問題に効果的に対処する。当社のアプローチは、最先端のCD-FSLアプローチよりも優れており、複数のエゴセントリックデータセットに対してかなりのマージンを有し、平均6.12/6.10ポイントの1ショット/5ショット設定で改善され、推論速度は2.2ドルの速さで達成された。プロジェクトページ:https://masashi-hatano.github.io/MM-CDFSL/

関連論文リスト

MoSSDA: A Semi-Supervised Domain Adaptation Framework for Multivariate Time-Series Classification using Momentum Encoder [4.972323953932128]
半教師付きドメイン適応(SSDA)はこの問題に対処するための主要なアプローチである。時系列分類のための新しい2段階の運動量エンコーダを用いたSSDAフレームワークMoSSDAを提案する。 MoSSDAは、3つの異なるバックボーンと、ターゲットドメインデータのラベルなし比率に対して、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-08-01T05:27:44Z)
Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-31T09:42:42Z)
ADAptation: Reconstruction-based Unsupervised Active Learning for Breast Ultrasound Diagnosis [11.49367029555765]
ディープラーニングベースの診断モデルは、トレーニング(ソース)とテスト(ターゲット)ドメイン間の分散シフトによって、パフォーマンス低下を被ることが多い。本稿では、適応ドメインのための教師なしアクティブ学習フレームワークADAptationを提案する。本手法は,アノテーション予算に制限されたマルチドメインデータプールから情報サンプルを効率よく選択する。
論文参考訳（メタデータ） (2025-07-01T06:45:02Z)
TITAN: Query-Token based Domain Adaptive Adversarial Learning [0.0]
我々は、適応中にソースデータが利用できなくなり、未ラベルのターゲットドメインに適応しなければならない場合、ソースフリー領域適応オブジェクト検出(SF-DAOD)問題に焦点を当てる。この問題に対するほとんどのアプローチは、学生教育者(ST)フレームワークを用いた自己教師型アプローチを採用しており、疑似ラベルはソース事前学習モデルを介して生成され、さらなる微調整が行われる。学生モデルの性能は,教師モデルが崩壊し,主に擬似ラベルの高雑音が原因で著しく低下することが多い。信頼性の高い擬似ラベルを得るために,我々は提案する。
論文参考訳（メタデータ） (2025-06-26T17:12:58Z)
Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文参考訳（メタデータ） (2024-07-16T06:38:49Z)
Enhancing Information Maximization with Distance-Aware Contrastive Learning for Source-Free Cross-Domain Few-Shot Learning [55.715623885418815]
クロスドメインのFew-Shot Learningメソッドは、トレーニング前のフェーズでモデルをトレーニングするために、ソースドメインデータにアクセスする必要がある。データプライバシやデータ送信やトレーニングコストの削減に対する懸念が高まっているため,ソースデータにアクセスせずにCDFSLソリューションを開発する必要がある。本稿では,これらの課題に対処するための距離対応コントラスト学習手法を提案する。
論文参考訳（メタデータ） (2024-03-04T12:10:24Z)
FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文参考訳（メタデータ） (2022-11-07T09:38:34Z)
ME-D2N: Multi-Expert Domain Decompositional Network for Cross-Domain Few-Shot Learning [95.78635058475439]
クロスドメインのFew-Shot Learningは、異なるドメインにわたるFew-Shot Learning問題に対処することを目的としている。本稿では,ME-D2N(Multi-Expert Domain Decompositional Network)を技術的に貢献する。本稿では,学生モデルを2つの領域関連部分に分解する新しい領域分解モジュールを提案する。
論文参考訳（メタデータ） (2022-10-11T09:24:47Z)
Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。 2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2021-08-28T09:29:14Z)
SB-MTL: Score-based Meta Transfer-Learning for Cross-Domain Few-Shot Learning [3.6398662687367973]
本稿では,クロスドメインなFew-Shot学習問題に対処する,フレキシブルで効果的な手法を提案する。本手法は,MAML最適化機能エンコーダとスコアベースグラフニューラルネットワークを用いて,トランスファーラーニングとメタラーニングを組み合わせる。 5,20,50ショット,および4つの対象領域において,精度の大幅な向上が観察された。
論文参考訳（メタデータ） (2020-12-03T09:29:35Z)
Towards Accurate Knowledge Transfer via Target-awareness Representation Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。 TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文参考訳（メタデータ） (2020-10-16T17:45:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。