論文の概要: Texture-Based Input Feature Selection for Action Recognition
- arxiv url: http://arxiv.org/abs/2303.00138v3
- Date: Sun, 23 Apr 2023 09:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 21:00:30.438697
- Title: Texture-Based Input Feature Selection for Action Recognition
- Title(参考訳): 行動認識のためのテクスチャベース入力特徴選択
- Authors: Yalong Jiang
- Abstract要約: 本稿では,ドメインの差分を増大させる入力におけるタスク関連コンテンツを決定する新しい手法を提案する。
提案モデルは,HMDB-51データセットとPenn Actionデータセットにおいて,既存の行動認識モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 3.9596068699962323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of video action recognition has been significantly boosted by
using motion representations within a two-stream Convolutional Neural Network
(CNN) architecture. However, there are a few challenging problems in action
recognition in real scenarios, e.g., the variations in viewpoints and poses,
and the changes in backgrounds. The domain discrepancy between the training
data and the test data causes the performance drop. To improve the model
robustness, we propose a novel method to determine the task-irrelevant content
in inputs which increases the domain discrepancy. The method is based on a
human parsing model (HP model) which jointly conducts dense correspondence
labelling and semantic part segmentation. The predictions from the HP model
also function as re-rendering the human regions in each video using the same
set of textures to make humans appearances in all classes be the same. A
revised dataset is generated for training and testing and makes the action
recognition model exhibit invariance to the irrelevant content in the inputs.
Moreover, the predictions from the HP model are used to enrich the inputs to
the AR model during both training and testing. Experimental results show that
our proposed model is superior to existing models for action recognition on the
HMDB-51 dataset and the Penn Action dataset.
- Abstract(参考訳): ビデオ動作認識の性能は、2ストリーム畳み込みニューラルネットワーク(cnn)アーキテクチャ内の動き表現を使用することで大幅に向上している。
しかし、実際のシナリオでは、視点やポーズのバリエーションや背景の変化など、アクション認識にはいくつかの難しい問題がある。
トレーニングデータとテストデータとのドメイン間の不一致により、パフォーマンスが低下する。
モデルのロバスト性を改善するために,ドメインの差を増大させる入力におけるタスク関連コンテンツを決定する新しい手法を提案する。
本手法は,ヒトパーシングモデル(HPモデル)に基づいて,密接な対応ラベリングと意味部分のセグメンテーションを共同で行う。
HPモデルからの予測は、同じテクスチャセットを使用して各ビデオ内の人間の領域を再レンダリングすることで、すべてのクラスの人間の外観を同じものにする。
トレーニングとテストのために修正データセットを生成し、入力における無関係な内容に、アクション認識モデルに不変性を示す。
さらに、hpモデルからの予測は、トレーニングとテストの両方においてarモデルへの入力を強化するために使用される。
実験の結果,提案手法は既存のHMDB-51データセットとPenn Actionデータセットの動作認識モデルよりも優れていることがわかった。
関連論文リスト
- MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。
本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。
我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-25T09:31:41Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Few Shot Activity Recognition Using Variational Inference [9.371378627575883]
本稿では,少数のショットアクティビティ認識のための新しい変分推論ベースアーキテクチャフレームワーク(HF-AR)を提案する。
筆者らの枠組みは, 容積保存型家庭用フローを活用して, 新規クラスの柔軟な後部分布を学習する。
これにより、人間の行動認識のための最先端のショットアプローチと比較して、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-08-20T03:57:58Z) - Spatio-Temporal Human Action Recognition Modelwith Flexible-interval
Sampling and Normalization [0.0]
設計モジュールを用いた赤緑色(RGB)ビデオ入力のためのヒューマンアクションシステムを提案する。
我々は、人間のキーポイント予測と行動認識の両方に対して、類似した背景と差別的な行動を持つ新しいデータセットを構築した。
実験により,提案モデルの有効性を,我々の行動認識データセットといくつかの公開データセットで実証した。
論文 参考訳(メタデータ) (2021-08-12T10:02:20Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Spatial-Temporal Alignment Network for Action Recognition and Detection [80.19235282200697]
本稿では,行動認識と検出を支援する視点不変の特徴表現を導入する方法について検討する。
本稿では,行動認識と行動検出のための幾何学的不変表現の学習を目的とした,空間時間アライメントネットワーク(STAN)を提案する。
我々は、AVA、Kinetics-400、AVA-Kinetics、Charades、Charades-EgoのデータセットでSTANモデルを広範囲にテストした。
論文 参考訳(メタデータ) (2020-12-04T06:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。