論文の概要: Cross-Domain Human Action Recognition from Multiview Motion and Textual Descriptions
- arxiv url: http://arxiv.org/abs/2605.22697v1
- Date: Thu, 21 May 2026 16:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.606644
- Title: Cross-Domain Human Action Recognition from Multiview Motion and Textual Descriptions
- Title(参考訳): マルチビュー動作とテキスト記述からの人間行動認識
- Authors: Yannick Porto, Renato Martins, Thomas Chalumeau, Cedric Demonceaux,
- Abstract要約: 本稿では,クロスドメイン能力の向上を図った,新たな方向認識型行動認識手法を提案する。
異なる動き特徴を学習し、特定の方向対応テキストプロンプトを適応させ、対応する特徴を推論で一致させる新しい方向対応動作符号化ネットワークを提案する。
- 参考スコア(独自算出の注目度): 2.0019258650495493
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robustness to domain changes is a key capability for effective deployment of human action recognition systems in real-world scenarios, where action categories at inference can present important domain shifts or even unseen actions from training. In this context, improving the recognition capabilities of Zero-Shot Action Recognition models (ZSAR), without requiring strong annotation efforts, remains a central challenge. Most ZSAR approaches assume that actions are observed under geometric conditions similar to those seen during training. In practice, variations in human body orientation and camera viewpoint add a significant domain gap in ZSAR, substantially limiting generalization to novel action-motion combinations. In this context, this paper presents a novel orientation-aware action recognition approach with improved cross-domain capabilities. Our approach combines motion cues of multiple camera viewpoints and text descriptions of human actions in the training phase. We present a new orientation-aware motion encoding network to learn different motion features, and adapt a specific orientation-aware text prompt to match the corresponding features at inference. Extensive experiments demonstrate that the proposed method consistently improves ZSAR performance across different recognition benchmarks, outperforming recent state-of-the-art zero-shot approaches on NTU-RGB+D, BABEL, NW-UCLA, and on two surveillance datasets. In addition, the learned representations exhibit strong transfer learning capabilities, yielding competitive performance on both cross-domain and same-domain recognition of seen actions. Code and trained models are available at: https://icb-vision-ai.github.io/OrientationAware-HAR
- Abstract(参考訳): ドメイン変更に対するロバスト性は、実際のシナリオにおいて人間のアクション認識システムを効果的に展開するための重要な機能である。
この文脈では、強力なアノテーションを必要とせず、ゼロショット行動認識モデル(ZSAR)の認識能力の向上が中心的な課題である。
ほとんどのZSARアプローチは、行動は訓練中に見られるものと似た幾何学的条件下で観察されると仮定している。
実際には、人体の向きやカメラ視点のバリエーションは、ZSARにおいて重要な領域ギャップを生じさせ、新しいアクション・モーションの組み合わせへの一般化を著しく制限する。
そこで本研究では,ドメイン横断能力の向上をめざした,オリエンテーションを意識した新たな行動認識手法を提案する。
本手法は,複数のカメラ視点のモーションキューと,訓練段階における人間の動作のテキスト記述を組み合わせたものである。
異なる動き特徴を学習し、特定の方向対応テキストプロンプトを適応させ、対応する特徴を推論で一致させる新しい方向対応動作符号化ネットワークを提案する。
NTU-RGB+D, BABEL, NW-UCLA, および2つの監視データセットに対する最近の最先端ゼロショットアプローチよりも優れた性能を示す。
さらに、学習された表現は、強い伝達学習能力を示し、観察されたアクションのクロスドメインと同一ドメインの認識の両方で、競争性能を得る。
コードとトレーニングされたモデルについては、https://icb-vision-ai.github.io/OrientationAware-HARを参照してください。
関連論文リスト
- DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models [5.027492394254859]
DiSa は Directional Saliency-Aware Prompt Learning フレームワークである。
一般化を強化するために2つの補完正則化戦略を統合する。
さまざまな設定において、最先端のプロンプト学習方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-26T00:14:52Z) - Boosting Single-domain Generalized Object Detection via Vision-Language Knowledge Interaction [4.692621855184482]
Single-Domain Generalized Object Detection (S-DGOD)は、単一のソースドメイン上でオブジェクト検出をトレーニングすることを目的としている。
最近のS-DGODアプローチは、事前学習された視覚言語知識を利用して、視覚領域を越えて不変な特徴学習を導く。
本稿では,S-DGODタスクの一般化および識別的地域特徴をキャプチャするクロスモーダル特徴学習手法を提案する。
論文 参考訳(メタデータ) (2025-04-27T02:55:54Z) - Adversarial Domain Adaptation for Action Recognition Around the Clock [0.7614628596146599]
本稿では,ドメイン適応に基づく行動認識手法を提案する。
クロスドメイン設定での敵対的学習を使用して、クロスドメインアクション認識を学習する。
InFARおよびXD145アクションデータセット上でのSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-25T01:08:27Z) - Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文 参考訳(メタデータ) (2022-03-27T08:15:20Z) - Domain-Aware Continual Zero-Shot Learning [52.349332188116975]
ドメイン対応連続ゼロショット学習(DACZSL)は、連続的に変化するドメインにおいて、目に見えないカテゴリの画像を認識するタスクである。
そこで本研究では,ドメインシフトのための因子化特徴を学習するためのドメイン不変ネットワーク(DIN)を提案し,未知のクラスに対するテキスト表現を改善した。
以上の結果から,DINは既存のベースラインよりも高調波精度で5%以上,後方転送で1%以上優れていた。
論文 参考訳(メタデータ) (2021-12-24T08:17:18Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Elaborative Rehearsal for Zero-shot Action Recognition [36.84404523161848]
ZSARは、トレーニングサンプルなしでターゲット(見えない)アクションを認識することを目的としている。
アクションクラスを意味的に表現し、見てきたデータから知識を伝達することは依然として困難である。
本稿では,効率的なヒューマンメモリ技術であるElaborative RehearsalにインスパイアされたER強化ZSARモデルを提案する。
論文 参考訳(メタデータ) (2021-08-05T20:02:46Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Domain and View-point Agnostic Hand Action Recognition [6.432798111887824]
この問題に対処する新しい骨格型手の動き表現モデルを提案する。
一つの特定のドメイン(ドメイン間動作分類)と異なる未確認ドメイン(ドメイン間動作分類)の両方に作用する動作表現モデルの性能を実証する。
このアプローチは、ドメイン内でトレーニングされた最先端のメソッドに匹敵する結果を得る。
論文 参考訳(メタデータ) (2021-03-03T10:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。