論文の概要: Audio-Adaptive Activity Recognition Across Video Domains
- arxiv url: http://arxiv.org/abs/2203.14240v2
- Date: Tue, 29 Mar 2022 07:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 20:35:59.204499
- Title: Audio-Adaptive Activity Recognition Across Video Domains
- Title(参考訳): 映像領域にまたがる音声適応行動認識
- Authors: Yunhua Zhang, Hazel Doughty, Ling Shao, Cees G. M. Snoek
- Abstract要約: ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
- 参考スコア(独自算出の注目度): 112.46638682143065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper strives for activity recognition under domain shift, for example
caused by change of scenery or camera viewpoint. The leading approaches reduce
the shift in activity appearance by adversarial training and self-supervised
learning. Different from these vision-focused works we leverage activity sounds
for domain adaptation as they have less variance across domains and can
reliably indicate which activities are not happening. We propose an
audio-adaptive encoder and associated learning methods that discriminatively
adjust the visual feature representation as well as addressing shifts in the
semantic distribution. To further eliminate domain-specific features and
include domain-invariant activity sounds for recognition, an audio-infused
recognizer is proposed, which effectively models the cross-modal interaction
across domains. We also introduce the new task of actor shift, with a
corresponding audio-visual dataset, to challenge our method with situations
where the activity appearance changes dramatically. Experiments on this
dataset, EPIC-Kitchens and CharadesEgo show the effectiveness of our approach.
- Abstract(参考訳): 本稿では,例えば景色の変化やカメラの視点の変化など,領域シフト下での活動認識について検討する。
指導的アプローチは、対人訓練と自己指導学習による活動の出現のシフトを減少させる。
これらの視覚に焦点を当てた作業と異なり、ドメイン間の差異が少なく、どのアクティビティが起こっていないかを確実に示すことができるため、ドメイン適応のためにアクティビティサウンドを利用する。
本稿では,視覚特徴表現を識別的に調整し,意味分布の変化に対応するオーディオ適応エンコーダと関連する学習手法を提案する。
ドメイン固有の特徴をさらに排除し、認識のためのドメイン不変活動音を含むために、ドメイン間のクロスモーダルインタラクションを効果的にモデル化するオーディオ干渉認識器を提案する。
また,アクタシフトの新たなタスクと対応する視聴覚データセットを導入し,アクティビティの出現が劇的に変化する状況で提案手法に挑戦する。
このデータセットの実験では、EPIC-KitchensとCharadesEgoが我々のアプローチの有効性を示している。
関連論文リスト
- Integrating Audio Narrations to Strengthen Domain Generalization in Multimodal First-Person Action Recognition [28.49695567630899]
ウェアラブルカメラの普及により、ファーストパーソンの活動認識が急速に伸びている。
本稿では,動作,音声,外観機能を統合することにより,ドメインの一般化を改善するフレームワークを提案する。
提案手法はARGO1Mデータセット上での最先端のパフォーマンスを実現し,目に見えないシナリオや場所を効果的に一般化する。
論文 参考訳(メタデータ) (2024-09-15T04:43:00Z) - CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Learning Cross-modal Contrastive Features for Video Domain Adaptation [138.75196499580804]
本稿では、クロスモーダルとクロスドメインの特徴表現を同時に正規化する、ビデオドメイン適応のための統合フレームワークを提案する。
具体的には、ドメインの各モダリティを視点として扱い、コントラスト学習手法を適切に設計されたサンプリング戦略で活用する。
論文 参考訳(メタデータ) (2021-08-26T18:14:18Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z) - Domain and View-point Agnostic Hand Action Recognition [6.432798111887824]
この問題に対処する新しい骨格型手の動き表現モデルを提案する。
一つの特定のドメイン(ドメイン間動作分類)と異なる未確認ドメイン(ドメイン間動作分類)の両方に作用する動作表現モデルの性能を実証する。
このアプローチは、ドメイン内でトレーニングされた最先端のメソッドに匹敵する結果を得る。
論文 参考訳(メタデータ) (2021-03-03T10:32:36Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。