論文の概要: Domain Generalization through Audio-Visual Relative Norm Alignment in
First Person Action Recognition
- arxiv url: http://arxiv.org/abs/2110.10101v1
- Date: Tue, 19 Oct 2021 16:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 14:04:07.801002
- Title: Domain Generalization through Audio-Visual Relative Norm Alignment in
First Person Action Recognition
- Title(参考訳): 個人行動認識における聴覚的相対ノルムアライメントによるドメインの一般化
- Authors: Mirco Planamente, Chiara Plizzari, Emanuele Alberti, Barbara Caputo
- Abstract要約: ウェアラブルカメラの普及により、ファースト・パーソン・アクション・認識はますます研究される分野になりつつある。
これは、この文脈でまだ解決されていない、軽量なドメイン横断の問題をもたらします。
本稿では,エゴセントリックな活動認識のための最初の領域一般化手法を提案する。
- 参考スコア(独自算出の注目度): 15.545769463854915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First person action recognition is becoming an increasingly researched area
thanks to the rising popularity of wearable cameras. This is bringing to light
cross-domain issues that are yet to be addressed in this context. Indeed, the
information extracted from learned representations suffers from an intrinsic
"environmental bias". This strongly affects the ability to generalize to unseen
scenarios, limiting the application of current methods to real settings where
labeled data are not available during training. In this work, we introduce the
first domain generalization approach for egocentric activity recognition, by
proposing a new audio-visual loss, called Relative Norm Alignment loss. It
re-balances the contributions from the two modalities during training, over
different domains, by aligning their feature norm representations. Our approach
leads to strong results in domain generalization on both EPIC-Kitchens-55 and
EPIC-Kitchens-100, as demonstrated by extensive experiments, and can be
extended to work also on domain adaptation settings with competitive results.
- Abstract(参考訳): first person action recognitionは、ウェアラブルカメラの人気が高まり、ますます研究されている分野になりつつある。
これは、この文脈でまだ解決されていない、軽いドメイン横断の問題をもたらします。
実際、学習された表現から抽出された情報は内在的な「環境バイアス」に苦しむ。
これは、見えないシナリオに一般化する能力に強く影響し、トレーニング中にラベル付きデータが利用できない実際の設定に現在のメソッドの適用を制限する。
本研究では,自己中心的活動認識のための最初の領域一般化手法として,相対ノルムアライメント損失(Relative Norm Alignment loss)という新たな聴覚的損失を提案する。
トレーニング中の2つのモダリティからの貢献を、機能規範表現の調整によって、異なるドメインで再バランスさせる。
提案手法は, EPIC-Kitchens-55とEPIC-Kitchens-100の両領域の一般化において, 広範な実験により実証され, ドメイン適応設定にも拡張可能である。
関連論文リスト
- A2XP: Towards Private Domain Generalization [0.0]
eXpert Prompts (A2XP)は、ネットワークアーキテクチャのプライバシと整合性を保ったドメインの一般化のための新しいアプローチである。
我々の実験は、A2XPが既存の非私的領域一般化法よりも最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-17T05:49:50Z) - From Denoising Training to Test-Time Adaptation: Enhancing Domain
Generalization for Medical Image Segmentation [8.36463803956324]
本稿では,補助的な復号化デコーダを基本U-Netアーキテクチャに組み込んだ新しい手法であるDenoising Y-Netを提案する。
補助デコーダは、ドメインの一般化を促進するドメイン不変表現を増強し、デノナイジングトレーニングを実行することを目的としている。
そこで本研究では,Denoising Test Time Adaptation (DeTTA)を提案する。さらに, (i) モデルを対象領域にサンプル的に適応させ, (ii) ノイズ破損した入力に適応させる。
論文 参考訳(メタデータ) (2023-10-31T08:39:15Z) - NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。
本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。
テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-07-25T13:35:45Z) - PoliTO-IIT-CINI Submission to the EPIC-KITCHENS-100 Unsupervised Domain
Adaptation Challenge for Action Recognition [16.496889090237232]
本報告では,EPIC-Kitchens-100 Unsupervised Domain Adaptation Challenge in Action Recognitionへの提出の技術的詳細について述べる。
我々はRelative Norm Alignment (RNA)と呼ばれる最近のドメイン一般化手法を最初に利用した。
第二に、この手法を非競合対象データに拡張し、教師なしの方法でモデルが対象分布に適応することを可能にした。
論文 参考訳(メタデータ) (2022-09-09T21:03:11Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Localized Adversarial Domain Generalization [83.4195658745378]
対数領域の一般化は、領域の一般化に対する一般的なアプローチである。
空間コンパクト性維持(LADG)を用いた局所対向領域の一般化を提案する。
我々はWilds DGベンチマークで包括的な実験を行い、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2022-05-09T08:30:31Z) - Towards Online Domain Adaptive Object Detection [79.89082006155135]
既存のオブジェクト検出モデルは、トレーニングデータとテストデータの両方が同じソースドメインからサンプリングされていると仮定します。
オンライン設定における対象領域の一般化を適応・改善する新しい統合適応フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-11T17:47:22Z) - Cross-Domain First Person Audio-Visual Action Recognition through
Relative Norm Alignment [15.545769463854915]
ファースト・パーソン・アクション・認識は、ウェアラブル・カメラの人気が高まっているため、ますます研究が進んでいるトピックである。
これは、この文脈でまだ解決されていない、軽量なドメイン横断の問題をもたらします。
本稿では,音声・視覚信号の本質的な相補性を利用して,学習中のデータによく作用する表現を学習することを提案する。
論文 参考訳(メタデータ) (2021-06-03T08:46:43Z) - A Fourier-based Framework for Domain Generalization [82.54650565298418]
ドメインの一般化は、複数のソースドメインから伝達可能な知識を学習して、未確認のターゲットドメインに一般化することでこの問題に対処することを目的としている。
本稿では、ドメイン一般化のための新しいフーリエに基づく視点を紹介する。
3つのベンチマーク実験により,提案手法は領域一般化のための最先端性能を実現することができることを示した。
論文 参考訳(メタデータ) (2021-05-24T06:50:30Z) - Phase Consistent Ecological Domain Adaptation [76.75730500201536]
意味的セグメンテーション(意味的セグメンテーション)の課題に焦点をあてる。そこでは、注釈付き合成データが多用されるが、実際のデータへのアノテートは困難である。
視覚心理学に触発された最初の基準は、2つの画像領域間の地図が位相保存であることである。
第2の基準は、照明剤や撮像センサーの特性に関わらず、その画像に現れる環境統計、またはシーン内の規則を活用することを目的としている。
論文 参考訳(メタデータ) (2020-04-10T06:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。