Fugu-MT 論文翻訳(概要): Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

論文の概要: Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

arxiv url: http://arxiv.org/abs/2001.09691v2
Date: Thu, 19 Mar 2020 16:16:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-06 08:15:43.330516
Title: Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
Title（参考訳）: ファイングラインド動作認識のためのマルチモーダルドメイン適応
Authors: Jonathan Munro and Dima Damen
Abstract要約: UDAのための自己教師付きアライメントアプローチとして,モーダルティの対応を利用する。マルチモーダル・セルフ・スーパービジョンだけで、ソースのみのトレーニングよりも平均2.4%パフォーマンスが向上することを示す。次に, 対人訓練とマルチモーダル・セルフスーパービジョンを組み合わせることで, アプローチが他のUDA手法よりも3%優れていたことを示す。
参考スコア（独自算出の注目度）: 35.22906271819216
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-grained action recognition datasets exhibit environmental bias, where multiple video sequences are captured from a limited number of environments. Training a model in one environment and deploying in another results in a drop in performance due to an unavoidable domain shift. Unsupervised Domain Adaptation (UDA) approaches have frequently utilised adversarial training between the source and target domains. However, these approaches have not explored the multi-modal nature of video within each domain. In this work we exploit the correspondence of modalities as a self-supervised alignment approach for UDA in addition to adversarial alignment. We test our approach on three kitchens from our large-scale dataset, EPIC-Kitchens, using two modalities commonly employed for action recognition: RGB and Optical Flow. We show that multi-modal self-supervision alone improves the performance over source-only training by 2.4% on average. We then combine adversarial training with multi-modal self-supervision, showing that our approach outperforms other UDA methods by 3%.
Abstract（参考訳）: きめ細かいアクション認識データセットは環境バイアスを示し、複数のビデオシーケンスが限られた環境から取得される。ある環境でモデルをトレーニングし、別の環境にデプロイすると、避けられないドメインシフトのためにパフォーマンスが低下する。 unsupervised domain adaptation (uda)アプローチは、ソースドメインとターゲットドメインの間の敵対的トレーニングを頻繁に活用している。しかし、これらのアプローチは、各領域におけるビデオのマルチモーダルな性質を探求していない。本研究では, 対向アライメントに加えて, UDA の自己教師付きアライメントアプローチとして, モダリティの対応を利用する。大規模データセットEPIC-Kitchensの3つのキッチンに対して,アクション認識によく使用される2つのモード(RGBと光フロー)を用いて,アプローチを検証した。マルチモーダルな自己スーパービジョンだけで、ソースのみのトレーニングよりもパフォーマンスが平均2.4%向上することを示す。そして,本手法が他のuda法を3%上回ることを示すマルチモーダル・セルフスーパービジョンと,敵対的トレーニングを組み合わせる。

関連論文リスト

Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-31T09:42:42Z)
Multimodal 3D Object Detection on Unseen Domains [37.142470149311904]
ドメイン適応アプローチは、この問題に対処するために、テストディストリビューションから無注釈のサンプルへのアクセスを前提とします。マルチモーダル融合および3次元オブジェクト検出のための教師付きコントラスト学習フレームワークであるCLIX$text3D$を提案する。 CLIX$text3D$は、複数のデータセットシフト下での最先端のドメイン一般化性能を示す。
論文参考訳（メタデータ） (2024-04-17T21:47:45Z)
CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D Object Detection [14.063365469339812]
LiDARベースの3Dオブジェクト検出法は、ソース(またはトレーニング)データ配布の外部のターゲットドメインにうまく一般化しないことが多い。画像のモダリティから視覚的セマンティックキューを活用する,CMDA (unsupervised domain adaptation) と呼ばれる新しい手法を提案する。また、自己学習に基づく学習戦略を導入し、モデルが逆向きに訓練され、ドメイン不変の機能を生成する。
論文参考訳（メタデータ） (2024-03-06T14:12:38Z)
Revisiting the Domain Shift and Sample Uncertainty in Multi-source Active Domain Transfer [69.82229895838577]
Active Domain Adaptation (ADA)は、アノテートするターゲットデータの限られた数を選択することで、新しいターゲットドメインにおけるモデル適応を最大限に向上することを目的としている。この設定は、複数のソースからトレーニングデータを収集するより実践的なシナリオを無視します。これは、ADAを単一のソースドメインから複数のソースドメインに拡張する、新しい、挑戦的な知識転送の設定を目標にしています。
論文参考訳（メタデータ） (2023-11-21T13:12:21Z)
Dynamic Domain Discrepancy Adjustment for Active Multi-Domain Adaptation [3.367755441623275]
マルチソースアン教師付きドメイン適応(MUDA)は、関連するソースドメインから未ラベルのターゲットドメインに知識を転送することを目的としている。アクティブマルチドメイン適応(D3AAMDA)のための動的ドメイン不一致適応法(Dynamic Domain Disrepancy Adjustment)を提案する。このメカニズムは、ソースドメインとターゲットドメイン間の特徴のアライメントレベルを制御し、ソースドメイン内のローカルな有利な特徴情報を効果的に活用する。
論文参考訳（メタデータ） (2023-07-26T09:40:19Z)
Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。 MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文参考訳（メタデータ） (2022-09-30T03:40:10Z)
Multi-Source domain adaptation via supervised contrastive learning and confident consistency regularization [0.0]
Multi-Source Unsupervised Domain Adaptation (multi-source UDA)は、複数のラベル付きソースドメインからモデルを学習することを目的としている。本稿では,この制限に対処するマルチソースUDAに対して,コントラスト型マルチソースドメイン適応(CMSDA)を提案する。
論文参考訳（メタデータ） (2021-06-30T14:39:15Z)
Surprisingly Simple Semi-Supervised Domain Adaptation with Pretraining and Consistency [93.89773386634717]
ビジュアルドメイン適応は、異なるソースドメインで利用可能なラベルを使用して、ターゲットのビジュアルドメインからイメージを分類する学習を含む。いくつかの目標ラベルが存在する場合、(回転予測による)自己スーパービジョンや整合正則化といった単純な手法が、適切な目標分類器を学習するための対角アライメントなしで有効であることを示す。我々の事前学習と一貫性(PAC)アプローチは、この半教師付きドメイン適応タスクにおいて、複数のデータセットにまたがる複数の対向的なドメインアライメント手法を超越して、技術精度を達成することができる。
論文参考訳（メタデータ） (2021-01-29T18:40:17Z)
Multi-Domain Adversarial Feature Generalization for Person Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文参考訳（メタデータ） (2020-11-25T08:03:15Z)
FixBi: Bridging Domain Spaces for Unsupervised Domain Adaptation [26.929772844572213]
我々は、ソースとターゲットドメイン間の複数の中間ドメインを拡大するために、固定比に基づくミックスアップを導入する。我々は、相補的な特性を持つソース支配モデルとターゲット支配モデルを訓練する。提案手法により,モデルが対象ドメインに徐々にドメイン知識を伝達する。
論文参考訳（メタデータ） (2020-11-18T11:58:19Z)
Multi-path Neural Networks for On-device Multi-domain Visual Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文参考訳（メタデータ） (2020-10-10T05:13:49Z)
Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-31T03:48:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。