論文の概要: Action-slot: Visual Action-centric Representations for Multi-label
Atomic Activity Recognition in Traffic Scenes
- arxiv url: http://arxiv.org/abs/2311.17948v1
- Date: Wed, 29 Nov 2023 05:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:38:04.956339
- Title: Action-slot: Visual Action-centric Representations for Multi-label
Atomic Activity Recognition in Traffic Scenes
- Title(参考訳): アクションスロット:交通場面におけるマルチラベル原子活動認識のための視覚行動中心表現
- Authors: Chi-Hsi Kung, Shu-Wei Lu, Yi-Hsuan Tsai, Yi-Ting Chen
- Abstract要約: Action-Slotは、視覚的なアクション中心の表現を学ぶスロットアテンションベースのアプローチである。
私たちのキーとなるアイデアは、原子活動が起こる領域に注意を払うことができるアクションスロットを設計することです。
この制限に対処するため,OATSより4倍大きいTACOという合成データセットを収集した。
- 参考スコア(独自算出の注目度): 25.43661979008945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study multi-label atomic activity recognition. Despite the
notable progress in action recognition, it is still challenging to recognize
atomic activities due to a deficiency in a holistic understanding of both
multiple road users' motions and their contextual information. In this paper,
we introduce Action-slot, a slot attention-based approach that learns visual
action-centric representations, capturing both motion and contextual
information. Our key idea is to design action slots that are capable of paying
attention to regions where atomic activities occur, without the need for
explicit perception guidance. To further enhance slot attention, we introduce a
background slot that competes with action slots, aiding the training process in
avoiding unnecessary focus on background regions devoid of activities. Yet, the
imbalanced class distribution in the existing dataset hampers the assessment of
rare activities. To address the limitation, we collect a synthetic dataset
called TACO, which is four times larger than OATS and features a balanced
distribution of atomic activities. To validate the effectiveness of our method,
we conduct comprehensive experiments and ablation studies against various
action recognition baselines. We also show that the performance of multi-label
atomic activity recognition on real-world datasets can be improved by
pretraining representations on TACO. We will release our source code and
dataset. See the videos of visualization on the project page:
https://hcis-lab.github.io/Action-slot/
- Abstract(参考訳): 本稿では,マルチラベル原子活動認識について検討する。
行動認識の顕著な進歩にもかかわらず、複数の道路利用者の動きと文脈情報の総合的理解の欠如により、原子活動を認識することは依然として困難である。
本稿では,視覚行動中心表現を学習し,動作情報と文脈情報の両方をキャプチャするスロットアテンションに基づくアプローチであるaction-slotを提案する。
私たちのキーとなる考え方は、原子活動が起こる領域に注意を払うことができるアクションスロットを、明示的な知覚ガイダンスを必要とせずに設計することです。
スロット注目をさらに高めるために,アクションスロットと競合するバックグラウンドスロットを導入し,アクティビティのない背景領域への不要な集中を回避するためのトレーニングプロセスを支援する。
しかし、既存のデータセットにおける不均衡なクラス分布は、稀な活動の評価を妨げている。
この制限に対処するため,OATSより4倍大きく,原子活性のバランスの取れた分布を特徴とするTACOという合成データセットを収集した。
本手法の有効性を検証するため,様々な行動認識ベースラインに対する包括的実験およびアブレーション研究を行った。
また,実世界のデータセット上でのマルチラベル原子活動認識の性能は,TACO上での事前学習により向上できることを示す。
ソースコードとデータセットをリリースします。
ビジュアライゼーションの動画はプロジェクトページにある。 https://hcis-lab.github.io/action-slot/
関連論文リスト
- ARIC: An Activity Recognition Dataset in Classroom Surveillance Images [19.586321497367294]
私たちはARIC(Activity Recognition In Classroom)と呼ばれる教室監視画像行動認識に焦点を当てた新しいデータセットを構築した。
ARICデータセットには、複数の視点、32のアクティビティカテゴリ、3つのモダリティ、現実世界の教室シナリオの利点がある。
我々は、ARICデータセットが、オープンな教育シナリオの分析と研究のファシリテーターとして機能することを願っている。
論文 参考訳(メタデータ) (2024-10-16T07:59:07Z) - Few-Shot Continual Learning for Activity Recognition in Classroom Surveillance Images [13.328067147864092]
実際の教室環境では、通常の授業活動が多くのサンプルを担っているのに対して、食事のような稀な非教育活動は現れ続けている。
これは、通常の授業活動を忘れることなく、少数のサンプルから非教育活動を学ぶことができるモデルを必要とする。
論文 参考訳(メタデータ) (2024-09-05T08:55:56Z) - VCHAR:Variance-Driven Complex Human Activity Recognition framework with Generative Representation [6.278293754210117]
VCHAR(Variance-Driven Complex Human Activity Recognition)は、原子活動の出力を特定の間隔での分布として扱う新しいフレームワークである。
VCHARは、原子活動の正確な時間的・シーケンシャルなラベル付けを必要とせず、複雑な活動認識の精度を高める。
論文 参考訳(メタデータ) (2024-07-03T17:24:36Z) - Object-centric Cross-modal Feature Distillation for Event-based Object
Detection [87.50272918262361]
RGB検出器は、イベントデータのばらつきと視覚的詳細の欠如により、イベントベースの検出器よりも優れている。
これら2つのモード間の性能ギャップを縮めるための新しい知識蒸留手法を開発した。
対象中心蒸留により,イベントベースの学生物体検出装置の性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-11-09T16:33:08Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Home Action Genome: Cooperative Compositional Action Understanding [33.69990813932372]
アクション認識に関する既存の研究は、アクティビティをビデオで発生したモノリシックなイベントとして扱う。
協調構成行動理解(CCAU)は階層的行動認識のための協調学習フレームワークである。
単サンプルで28.6%のmAPを達成し, 複数ショット動作認識におけるコラーニング合成の有用性を実証した。
論文 参考訳(メタデータ) (2021-05-11T17:42:47Z) - Semi-Supervised Few-Shot Atomic Action Recognition [59.587738451616495]
半教師付き数発のアトミック・アクション認識のための新しいモデルを提案する。
我々のモデルは、教師なしおよびコントラスト付きビデオ埋め込み、ゆるやかなアクションアライメント、マルチヘッド特徴比較、アテンションベースのアグリゲーションを特徴としている。
実験により,本モデルは,それぞれの最先端の分類精度よりも高い精度を全監督条件下で達成できることが確認された。
論文 参考訳(メタデータ) (2020-11-17T03:59:05Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。