論文の概要: Human-Centric Transformer for Domain Adaptive Action Recognition
- arxiv url: http://arxiv.org/abs/2407.10860v1
- Date: Mon, 15 Jul 2024 16:10:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:20:24.745518
- Title: Human-Centric Transformer for Domain Adaptive Action Recognition
- Title(参考訳): ドメイン適応行動認識のための人間中心変換器
- Authors: Kun-Yu Lin, Jiaming Zhou, Wei-Shi Zheng,
- Abstract要約: 本研究では,行動認識のための領域適応タスク,すなわちドメイン適応行動認識について検討する。
我々は、ドメイン適応型アクション認識のための人間中心のアクションキューを明らかにすることに注力する。
提案するHuman-Centric Transformer (HCTransformer) は、疎結合な人間中心学習パラダイムを開発する。
- 参考スコア(独自算出の注目度): 34.55757133286941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the domain adaptation task for action recognition, namely domain adaptive action recognition, which aims to effectively transfer action recognition power from a label-sufficient source domain to a label-free target domain. Since actions are performed by humans, it is crucial to exploit human cues in videos when recognizing actions across domains. However, existing methods are prone to losing human cues but prefer to exploit the correlation between non-human contexts and associated actions for recognition, and the contexts of interest agnostic to actions would reduce recognition performance in the target domain. To overcome this problem, we focus on uncovering human-centric action cues for domain adaptive action recognition, and our conception is to investigate two aspects of human-centric action cues, namely human cues and human-context interaction cues. Accordingly, our proposed Human-Centric Transformer (HCTransformer) develops a decoupled human-centric learning paradigm to explicitly concentrate on human-centric action cues in domain-variant video feature learning. Our HCTransformer first conducts human-aware temporal modeling by a human encoder, aiming to avoid a loss of human cues during domain-invariant video feature learning. Then, by a Transformer-like architecture, HCTransformer exploits domain-invariant and action-correlated contexts by a context encoder, and further models domain-invariant interaction between humans and action-correlated contexts. We conduct extensive experiments on three benchmarks, namely UCF-HMDB, Kinetics-NecDrone and EPIC-Kitchens-UDA, and the state-of-the-art performance demonstrates the effectiveness of our proposed HCTransformer.
- Abstract(参考訳): 本研究では,行動認識のためのドメイン適応タスク,すなわちドメイン適応行動認識について検討する。
アクションは人間によって実行されるため、ドメイン間のアクションを認識する際には、ビデオ中の人間の手がかりを利用することが不可欠である。
しかしながら、既存の手法では、人間の手がかりを失う傾向があるが、非人間的文脈と認識に関連する行動との相関を利用して行動に依存しない状況は、対象領域における認識性能を低下させる。
この問題を解決するために、我々は、ドメイン適応アクション認識のための人間中心アクションキューを明らかにすることに注力し、人間中心アクションキューの2つの側面、すなわち、人間中心アクションキューと人間コンテキストインタラクションキューを考察する。
そこで提案するHCTransformer(Human-Centric Transformer, HCTransformer)は, ドメイン型ビデオ特徴学習において, 人中心のアクションキューを明示的に重視するために, 疎結合な人間中心学習パラダイムを開発する。
我々のHCTransformerは、まず、人間のエンコーダによる時間的モデリングを行い、ドメイン不変のビデオ特徴学習における人間の手がかりの喪失を回避することを目的としている。
次に、トランスフォーマーのようなアーキテクチャにより、HCTransformerはコンテキストエンコーダによってドメイン不変およびアクション関連コンテキストを利用し、さらに人間とアクション関連コンテキスト間のドメイン不変相互作用をモデル化する。
我々は,UCF-HMDB,Kineetics-NecDrone,EPIC-Kitchens-UDAの3つのベンチマークに対して広範な実験を行い,提案したHCTransformerの有効性を示す。
関連論文リスト
- AD-Aligning: Emulating Human-like Generalization for Cognitive Domain Adaptation in Deep Learning [3.3543468626874486]
ドメイン適応は、ディープラーニングモデルがさまざまなドメインにまたがる一般化を可能にするために重要である。
AD-Aligning(AD-Aligning、AD-Aligning、AD-Aligning、AD-Aligning、AD-Aligning、AD-Aligning、AD-Aligning、AD-Aligning、AD-Aligning)を導入。
以上の結果から,AD-Aligningは人間の知覚に固有のニュアンス認知過程をエミュレートする能力を示した。
論文 参考訳(メタデータ) (2024-05-15T02:34:06Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Neural-Logic Human-Object Interaction Detection [67.4993347702353]
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。
我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
論文 参考訳(メタデータ) (2023-11-16T11:47:53Z) - Towards Subject Agnostic Affective Emotion Recognition [8.142798657174332]
脳波信号による脳-コンピュータインタフェース(aBCI)の不安定性
本稿では,メタラーニングに基づくメタドメイン適応手法を提案する。
提案手法は,パブリックなaBICsデータセットの実験において有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-20T23:44:34Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文 参考訳(メタデータ) (2022-03-27T08:15:20Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。