論文の概要: Cross-Domain First Person Audio-Visual Action Recognition through
Relative Norm Alignment
- arxiv url: http://arxiv.org/abs/2106.01689v1
- Date: Thu, 3 Jun 2021 08:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 16:08:40.413155
- Title: Cross-Domain First Person Audio-Visual Action Recognition through
Relative Norm Alignment
- Title(参考訳): 相対ノルムアライメントを用いたクロスドメインファーストパーソン音声・視覚行動認識
- Authors: Mirco Planamente, Chiara Plizzari, Emanuele Alberti, Barbara Caputo
- Abstract要約: ファースト・パーソン・アクション・認識は、ウェアラブル・カメラの人気が高まっているため、ますます研究が進んでいるトピックである。
これは、この文脈でまだ解決されていない、軽量なドメイン横断の問題をもたらします。
本稿では,音声・視覚信号の本質的な相補性を利用して,学習中のデータによく作用する表現を学習することを提案する。
- 参考スコア(独自算出の注目度): 15.545769463854915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First person action recognition is an increasingly researched topic because
of the growing popularity of wearable cameras. This is bringing to light
cross-domain issues that are yet to be addressed in this context. Indeed, the
information extracted from learned representations suffers from an intrinsic
environmental bias. This strongly affects the ability to generalize to unseen
scenarios, limiting the application of current methods in real settings where
trimmed labeled data are not available during training. In this work, we
propose to leverage over the intrinsic complementary nature of audio-visual
signals to learn a representation that works well on data seen during training,
while being able to generalize across different domains. To this end, we
introduce an audio-visual loss that aligns the contributions from the two
modalities by acting on the magnitude of their feature norm representations.
This new loss, plugged into a minimal multi-modal action recognition
architecture, leads to strong results in cross-domain first person action
recognition, as demonstrated by extensive experiments on the popular
EPIC-Kitchens dataset.
- Abstract(参考訳): first person action recognitionは、ウェアラブルカメラの人気が高まっているため、ますます研究されているトピックである。
これは、この文脈でまだ解決されていない、軽いドメイン横断の問題をもたらします。
実際、学習した表現から抽出された情報には固有の環境バイアスが伴う。
これは、未確認のシナリオに一般化する能力に強く影響し、トレーニング中にトリミングされたラベル付きデータが利用できない実環境における現在のメソッドの適用を制限する。
そこで本研究では,音声・視覚信号の包括的相補的性質を克服し,異なる領域にまたがる一般化が可能でありながら,訓練中のデータによく適合する表現を学習することを提案する。
この目的のために,2つのモダリティからのコントリビューションを,特徴ノルム表現の大きさに基づいて調整する音声視覚損失を導入する。
この新たな損失は、最小のマルチモーダルアクション認識アーキテクチャにプラグインされ、人気の高いepic-kitchensデータセットの広範な実験で示されているように、クロスドメインファーストパーソンアクション認識に強力な結果をもたらす。
関連論文リスト
- Benchmarking Cross-Domain Audio-Visual Deception Detection [45.342156006617394]
本稿では,最初のクロスドメイン音声・視覚的誤認検出ベンチマークを提案する。
シングル・ツー・シングルとマルチ・ツー・シングル・ドメインの一般化性能を比較した。
一般化性能を向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-11T12:06:31Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Deepfake Detection via Joint Unsupervised Reconstruction and Supervised
Classification [25.84902508816679]
本稿では,再建作業と分類作業を同時に行うディープフェイク検出手法を提案する。
この方法は、あるタスクによって学習された情報を他のタスクと共有する。
提案手法は,一般的に使用されている3つのデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T05:44:26Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文 参考訳(メタデータ) (2022-03-27T08:15:20Z) - Domain Generalization through Audio-Visual Relative Norm Alignment in
First Person Action Recognition [15.545769463854915]
ウェアラブルカメラの普及により、ファースト・パーソン・アクション・認識はますます研究される分野になりつつある。
これは、この文脈でまだ解決されていない、軽量なドメイン横断の問題をもたらします。
本稿では,エゴセントリックな活動認識のための最初の領域一般化手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T16:52:39Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - An audiovisual and contextual approach for categorical and continuous
emotion recognition in-the-wild [27.943550651941166]
第2回ワークショップおよびABAW(Affective Behavior Analysis in-wild)の会場における映像による視覚的感情認識の課題に取り組む。
顔の特徴の抽出にのみ依存する標準的な手法は、上記の感情情報のソースが、頭や身体の向き、解像度の低さ、照明不足によってアクセスできない場合に、正確な感情予測を欠くことが多い。
我々は、より広い感情認識フレームワークの一部として、身体的および文脈的特徴を活用することで、この問題を緩和したいと考えています。
論文 参考訳(メタデータ) (2021-07-07T20:13:17Z) - Phase Consistent Ecological Domain Adaptation [76.75730500201536]
意味的セグメンテーション(意味的セグメンテーション)の課題に焦点をあてる。そこでは、注釈付き合成データが多用されるが、実際のデータへのアノテートは困難である。
視覚心理学に触発された最初の基準は、2つの画像領域間の地図が位相保存であることである。
第2の基準は、照明剤や撮像センサーの特性に関わらず、その画像に現れる環境統計、またはシーン内の規則を活用することを目的としている。
論文 参考訳(メタデータ) (2020-04-10T06:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。