論文の概要: Self-supervised Multi-actor Social Activity Understanding in Streaming Videos
- arxiv url: http://arxiv.org/abs/2406.14472v1
- Date: Thu, 20 Jun 2024 16:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:43:03.193435
- Title: Self-supervised Multi-actor Social Activity Understanding in Streaming Videos
- Title(参考訳): ストリーミング映像における自己指導型マルチアクター社会活動理解
- Authors: Shubham Trehan, Sathyanarayanan N. Aakur,
- Abstract要約: 社会活動認識(社会活動認識、Social Activity Recognition、SAR)は、監視や補助ロボティクスといった現実世界のタスクにおいて重要な要素である。
これまでのSARの研究は、高密度に注釈付けされたデータに大きく依存していたが、プライバシーに関する懸念は、現実の環境での適用性を制限している。
本稿では,ストリーミングビデオにおけるSARのマルチアクタ予測学習に基づく自己教師型アプローチを提案する。
- 参考スコア(独自算出の注目度): 6.4149117677272525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work addresses the problem of Social Activity Recognition (SAR), a critical component in real-world tasks like surveillance and assistive robotics. Unlike traditional event understanding approaches, SAR necessitates modeling individual actors' appearance and motions and contextualizing them within their social interactions. Traditional action localization methods fall short due to their single-actor, single-action assumption. Previous SAR research has relied heavily on densely annotated data, but privacy concerns limit their applicability in real-world settings. In this work, we propose a self-supervised approach based on multi-actor predictive learning for SAR in streaming videos. Using a visual-semantic graph structure, we model social interactions, enabling relational reasoning for robust performance with minimal labeled data. The proposed framework achieves competitive performance on standard group activity recognition benchmarks. Evaluation on three publicly available action localization benchmarks demonstrates its generalizability to arbitrary action localization.
- Abstract(参考訳): この研究は、監視や補助ロボティクスといった現実世界のタスクにおいて重要な要素である社会活動認識(Social Activity Recognition, SAR)の問題に対処する。
従来のイベント理解アプローチとは異なり、SARは個々のアクターの外観や動きをモデル化し、社会的相互作用の中でそれらをコンテキスト化する必要がある。
従来のアクションローカライゼーション手法は、シングルアクター、シングルアクション仮定のために不足している。
これまでのSARの研究は、高密度に注釈付けされたデータに大きく依存していたが、プライバシーに関する懸念は、現実の環境での適用性を制限している。
本研究では,ストリーミングビデオにおけるSARのマルチアクタ予測学習に基づく自己教師型アプローチを提案する。
ビジュアル・セマンティック・グラフ構造を用いて社会的相互作用をモデル化し、最小ラベル付きデータによるロバストな性能のリレーショナル推論を可能にする。
提案フレームワークは,標準グループアクティビティ認識ベンチマーク上での競合性能を実現する。
3つの公開アクションローカライゼーションベンチマークの評価は、任意のアクションローカライゼーションへの一般化性を示している。
関連論文リスト
- UAL-Bench: The First Comprehensive Unusual Activity Localization Benchmark [20.15425745473231]
ビデオにおけるヒューマンエラーや監視インシデントなどの異常な活動のローカライズは、現実的に重要な意味を持つ。
異常な活動のローカライズにおける基礎モデルの能力を探るため,UAL-Benchを紹介する。
UAL-Benchには、UAG-OOPS、UAG-SSBD、UAG-FunQAという3つのビデオデータセットと、OOPS-UAG-Instructというインストラクション・トゥンデータセットがある。
以上の結果から,VLM-LLMアプローチはVid-LLMよりも短時間の異常事象の局所化や開始時刻の予測に優れていた。
論文 参考訳(メタデータ) (2024-10-02T02:33:09Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - REACT: Recognize Every Action Everywhere All At Once [8.10024991952397]
グループ・アクティビティ・デコーダ(GAR)はコンピュータビジョンにおける基本的な問題であり、スポーツ分析、監視、社会場面の理解に様々な応用がある。
本稿では,変換器エンコーダ・デコーダモデルにインスパイアされたREACTアーキテクチャを提案する。
提案手法は,グループ活動の認識と理解において優れた精度を示すとともに,最先端のGAR手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T20:48:54Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Elaborative Rehearsal for Zero-shot Action Recognition [36.84404523161848]
ZSARは、トレーニングサンプルなしでターゲット(見えない)アクションを認識することを目的としている。
アクションクラスを意味的に表現し、見てきたデータから知識を伝達することは依然として困難である。
本稿では,効率的なヒューマンメモリ技術であるElaborative RehearsalにインスパイアされたER強化ZSARモデルを提案する。
論文 参考訳(メタデータ) (2021-08-05T20:02:46Z) - JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action,
Social Group and Activity Detection [54.696819174421584]
大学構内環境における生活行動の実際の分布を反映したマルチモーダルデータセットであるJRDB-Actを紹介する。
JRDB-Actには280万以上のアクションラベルがある。
JRDB-Actは、現場での対話に基づいて個人をグループ化するタスクに着想を得た社会集団識別アノテーションが付属している。
論文 参考訳(メタデータ) (2021-06-16T14:43:46Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Attention-Oriented Action Recognition for Real-Time Human-Robot
Interaction [11.285529781751984]
本稿では,リアルタイムインタラクションの必要性に応えるために,アテンション指向のマルチレベルネットワークフレームワークを提案する。
具体的には、プレアテンションネットワークを使用して、低解像度でシーン内のインタラクションに大まかにフォーカスする。
他のコンパクトCNNは、抽出されたスケルトンシーケンスをアクション認識用の入力として受信する。
論文 参考訳(メタデータ) (2020-07-02T12:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。