論文の概要: ExACT: Language-guided Conceptual Reasoning and Uncertainty Estimation for Event-based Action Recognition and More
- arxiv url: http://arxiv.org/abs/2403.12534v1
- Date: Tue, 19 Mar 2024 08:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:52:48.452380
- Title: ExACT: Language-guided Conceptual Reasoning and Uncertainty Estimation for Event-based Action Recognition and More
- Title(参考訳): ExACT:イベントベース行動認識のための言語誘導概念推論と不確かさ推定など
- Authors: Jiazhou Zhou, Xu Zheng, Yuanhuiyi Lyu, Lin Wang,
- Abstract要約: 本稿では,イベントに基づく行動認識をモーダルな概念化の観点から支援する新しいアプローチであるExACTを提案する。
実験の結果、当社のExACTは、PAF、HARDVS、SeActデータセットでそれぞれ94.83%(+2.23%)、90.10%(+37.47%)、67.24%の認識精度を達成していることがわかった。
- 参考スコア(独自算出の注目度): 7.797154022794006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras have recently been shown beneficial for practical vision tasks, such as action recognition, thanks to their high temporal resolution, power efficiency, and reduced privacy concerns. However, current research is hindered by 1) the difficulty in processing events because of their prolonged duration and dynamic actions with complex and ambiguous semantics and 2) the redundant action depiction of the event frame representation with fixed stacks. We find language naturally conveys abundant semantic information, rendering it stunningly superior in reducing semantic uncertainty. In light of this, we propose ExACT, a novel approach that, for the first time, tackles event-based action recognition from a cross-modal conceptualizing perspective. Our ExACT brings two technical contributions. Firstly, we propose an adaptive fine-grained event (AFE) representation to adaptively filter out the repeated events for the stationary objects while preserving dynamic ones. This subtly enhances the performance of ExACT without extra computational cost. Then, we propose a conceptual reasoning-based uncertainty estimation module, which simulates the recognition process to enrich the semantic representation. In particular, conceptual reasoning builds the temporal relation based on the action semantics, and uncertainty estimation tackles the semantic uncertainty of actions based on the distributional representation. Experiments show that our ExACT achieves superior recognition accuracy of 94.83%(+2.23%), 90.10%(+37.47%) and 67.24% on PAF, HARDVS and our SeAct datasets respectively.
- Abstract(参考訳): イベントカメラは、高時間分解能、電力効率、プライバシー上の懸念の軽減などにより、アクション認識などの実用的な視覚タスクに有用であることが最近示されている。
しかし、現在の研究は妨げられている。
1)イベントの処理の困難さは、その持続時間と、複雑であいまいな意味論による動的行動の長期化によるものである。
2)固定スタックによるイベントフレーム表現の冗長なアクション描写。
言語は自然に豊富な意味情報を伝達し、意味の不確実性を減らすのに驚くほど優れている。
そこで我々は, イベントに基づく行動認識を, クロスモーダルな概念化の観点から初めて取り組んだ, 新たなアプローチであるExACTを提案する。
当社のExACTには2つの技術コントリビューションがあります。
まず、動的イベントを保存しながら、定常オブジェクトの繰り返しイベントを適応的にフィルタリングする、適応的きめ細かいイベント(AFE)表現を提案する。
これにより、余分な計算コストなしでExACTの性能が微妙に向上する。
そこで本研究では,認識過程をシミュレートして意味表現を充実させる,概念推論に基づく不確実性推定モジュールを提案する。
特に、概念的推論は行動意味論に基づく時間的関係を構築し、不確実性推定は分布表現に基づく行動の意味的不確実性に取り組む。
実験の結果、当社のExACTは、PAF、HARDVS、SeActデータセットでそれぞれ94.83%(+2.23%)、90.10%(+37.47%)、67.24%の認識精度を達成していることがわかった。
関連論文リスト
- Uncertainty-boosted Robust Video Activity Anticipation [72.14155465769201]
ビデオアクティビティの予測は、ロボットビジョンから自動運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。
近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。
本研究では,予測結果の信頼性を示す不確実な値を生成する,不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T12:31:38Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Active Open-Vocabulary Recognition: Let Intelligent Moving Mitigate CLIP
Limitations [9.444540281544715]
オープン語彙認識のための新しいエージェントを提案する。
提案手法は,クラス固有の知識に頼ることなく,フレーム間の類似性や概念間の類似性を利用してエージェントの動きをナビゲートし,特徴を融合する。
論文 参考訳(メタデータ) (2023-11-28T19:24:07Z) - Recovering Continuous Scene Dynamics from A Single Blurry Image with
Events [58.7185835546638]
インプリシットビデオ関数(IVF)は、同時イベントを伴う単一の動きのぼやけた画像を表現する。
両モードの利点を効果的に活用するために、二重注意変換器を提案する。
提案するネットワークは,限られた参照タイムスタンプの地平線画像の監督のみで訓練される。
論文 参考訳(メタデータ) (2023-04-05T18:44:17Z) - Leveraging Self-Supervised Training for Unintentional Action Recognition [82.19777933440143]
我々は、アクションが意図的なものから意図しないものへと移行するビデオのポイントを特定したい。
本研究では,動き速度,動き方向,意図しない動作を認識するために,固有バイアスを利用する多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-23T21:36:36Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Affective Processes: stochastic modelling of temporal context for
emotion and facial expression recognition [38.47712256338113]
ニューラルプロセス(Neural Processes)の枠組みに基づき,3つの主成分を用いた感情認識手法を提案する。
提案手法は,Valence と Arousal の2つのデータベースと,Action Unit のインテンシティ推定の2つのデータベースで検証する。
その結果、一連の強いベースラインや最先端の手法よりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2021-03-24T17:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。