論文の概要: Human-centric Behavior Description in Videos: New Benchmark and Model
- arxiv url: http://arxiv.org/abs/2310.02894v1
- Date: Wed, 4 Oct 2023 15:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 14:27:57.573247
- Title: Human-centric Behavior Description in Videos: New Benchmark and Model
- Title(参考訳): ビデオにおける人間中心行動記述:新しいベンチマークとモデル
- Authors: Lingru Zhou, Yiqi Gao, Manqing Zhang, Peng Wu, Peng Wang, and Yanning
Zhang
- Abstract要約: 我々は,7,820人の動特性を詳細に記述した人間中心のビデオ監視キャプションデータセットを構築した。
このデータセットに基づいて、個人をそれぞれの行動に結びつけることができ、監視ビデオで各人の行動をさらに分析することができる。
- 参考スコア(独自算出の注目度): 37.96539992056626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the domain of video surveillance, describing the behavior of each
individual within the video is becoming increasingly essential, especially in
complex scenarios with multiple individuals present. This is because describing
each individual's behavior provides more detailed situational analysis,
enabling accurate assessment and response to potential risks, ensuring the
safety and harmony of public places. Currently, video-level captioning datasets
cannot provide fine-grained descriptions for each individual's specific
behavior. However, mere descriptions at the video-level fail to provide an
in-depth interpretation of individual behaviors, making it challenging to
accurately determine the specific identity of each individual. To address this
challenge, we construct a human-centric video surveillance captioning dataset,
which provides detailed descriptions of the dynamic behaviors of 7,820
individuals. Specifically, we have labeled several aspects of each person, such
as location, clothing, and interactions with other elements in the scene, and
these people are distributed across 1,012 videos. Based on this dataset, we can
link individuals to their respective behaviors, allowing for further analysis
of each person's behavior in surveillance videos. Besides the dataset, we
propose a novel video captioning approach that can describe individual behavior
in detail on a person-level basis, achieving state-of-the-art results. To
facilitate further research in this field, we intend to release our dataset and
code.
- Abstract(参考訳): ビデオ監視の分野では、特に複数の個人が存在する複雑なシナリオにおいて、ビデオ内の個々の個人の振る舞いを記述することがますます重要になっている。
これは、個人の行動を説明することがより詳細な状況分析を提供し、潜在的なリスクに対する正確な評価と対応を可能にし、公共の場所の安全と調和を保証するためである。
現在、ビデオレベルのキャプションデータセットは、個々の特定の振る舞いについて詳細な説明を提供できない。
しかし、ビデオレベルの記述では個々の行動の詳細な解釈が得られず、個々の個人固有のアイデンティティを正確に決定することは困難である。
この課題に対処するために,人間中心のビデオサーベイランスキャプションキャプションデータセットを構築し,7,820人の動的行動の詳細な記述を提供する。
具体的には、各人物の場所、服装、シーン内の他の要素とのインタラクションなど、いくつかの側面をラベル付けし、これらを1,012本のビデオに分散させました。
このデータセットに基づいて、個人をそれぞれの行動に結びつけることができ、監視ビデオで各人の行動をさらに分析することができる。
データセットの他に,個人レベルの動作を詳細に記述し,最先端の成果を得られる新しい動画キャプション手法を提案する。
この分野でさらなる研究を促進するため、私たちはデータセットとコードを公開します。
関連論文リスト
- PV-VTT: A Privacy-Centric Dataset for Mission-Specific Anomaly Detection and Natural Language Interpretation [5.0923114224599555]
プライバシー侵害の特定を目的とした,ユニークなマルチモーダルデータセットであるPV-VTT(Privacy Violation Video To Text)を提案する。
PV-VTTは、シナリオ内のビデオとテキストの両方に詳細なアノテーションを提供する。
このプライバシー重視のアプローチにより、研究者はこのデータセットを、保護された機密性を保護しながら使用することができる。
論文 参考訳(メタデータ) (2024-10-30T01:02:20Z) - HabitAction: A Video Dataset for Human Habitual Behavior Recognition [3.7478789114676108]
ヒトの習慣行動(HHBs)は、人の性格、習慣、心理的変化を分析する上で重要な役割を担っている。
本研究では,様々なHHBを実演するための新しいビデオデータセットを構築した。
データセットには、300,000フレーム以上と6,899のアクションインスタンスを含む、30の習慣行動カテゴリが含まれている。
論文 参考訳(メタデータ) (2024-08-24T04:40:31Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T19:46:49Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z) - Human in Events: A Large-Scale Benchmark for Human-centric Video
Analysis in Complex Events [106.19047816743988]
我々は、Human-in-Events(Human-in-Events)またはHiEve(HiEve)という、包括的なアノテーションを備えた新しい大規模データセットを提案する。
これには、複雑なイベントにおけるアクションインスタンスの最大数(>56k)と、長時間続くトラジェクトリの最大数(>1M)が含まれている。
多様なアノテーションに基づいて、アクション認識とポーズ推定のための2つのシンプルなベースラインを提示する。
論文 参考訳(メタデータ) (2020-05-09T18:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。