論文の概要: Bodily Behaviors in Social Interaction: Novel Annotations and
State-of-the-Art Evaluation
- arxiv url: http://arxiv.org/abs/2207.12817v1
- Date: Tue, 26 Jul 2022 11:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:55:59.980928
- Title: Bodily Behaviors in Social Interaction: Novel Annotations and
State-of-the-Art Evaluation
- Title(参考訳): 社会的相互作用における身体行動:新しい注釈と現状評価
- Authors: Michal Balazia, Philipp M\"uller, \'Akos Levente T\'anczos, August von
Liechtenstein, Fran\c{c}ois Br\'emond
- Abstract要約: 本稿では,社会相互作用に埋め込まれた複雑な身体行動の最初のアノテーションであるBBSIについて述べる。
心理学における過去の研究に基づいて,26時間の自発的な行動について手動で注釈を付けた。
我々は、人間の行動検出のための最先端のアプローチであるピラミッド拡張注意ネットワーク(PDAN)を適応する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Body language is an eye-catching social signal and its automatic analysis can
significantly advance artificial intelligence systems to understand and
actively participate in social interactions. While computer vision has made
impressive progress in low-level tasks like head and body pose estimation, the
detection of more subtle behaviors such as gesturing, grooming, or fumbling is
not well explored. In this paper we present BBSI, the first set of annotations
of complex Bodily Behaviors embedded in continuous Social Interactions in a
group setting. Based on previous work in psychology, we manually annotated 26
hours of spontaneous human behavior in the MPIIGroupInteraction dataset with 15
distinct body language classes. We present comprehensive descriptive statistics
on the resulting dataset as well as results of annotation quality evaluations.
For automatic detection of these behaviors, we adapt the Pyramid Dilated
Attention Network (PDAN), a state-of-the-art approach for human action
detection. We perform experiments using four variants of spatial-temporal
features as input to PDAN: Two-Stream Inflated 3D CNN, Temporal Segment
Networks, Temporal Shift Module and Swin Transformer. Results are promising and
indicate a great room for improvement in this difficult task. Representing a
key piece in the puzzle towards automatic understanding of social behavior,
BBSI is fully available to the research community.
- Abstract(参考訳): ボディランゲージは目を引く社会信号であり、その自動分析は人工知能システムを大幅に進歩させ、社会的相互作用を理解し、積極的に参加する。
コンピュータビジョンは頭と体のポーズ推定のような低レベルなタスクにおいて顕著な進歩を遂げてきたが、身振り、グルーミング、ファムブリングといったより微妙な行動の検出は、十分に調査されていない。
本稿では,連続的な社会的相互作用に埋め込まれた複雑な身体行動の最初のアノテーションであるBBSIについて述べる。
これまでの心理学的研究に基づいて,MPIIGroupInteractionデータセットにおいて,26時間の自発的行動の注釈を手作業で作成した。
得られたデータセットに関する包括的記述統計と注釈品質評価の結果について述べる。
これらの行動の自動検出には,人間行動検出のための最先端手法であるピラミッド拡張注意ネットワーク (pdan) を適用する。
PDANへの入力として,2ストリームインフレーション3D CNN,テンポラルセグメンツネットワーク,テンポラルシフトモジュール,スウィントランスフォーマーの4種類の時空間特徴を用いた実験を行った。
結果は有望であり、この困難なタスクを改善するための素晴らしい余地を示している。
BBSIは、社会行動の自動理解に向けたパズルのキーピースとして、研究コミュニティで完全に利用可能である。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - LISBET: a self-supervised Transformer model for the automatic
segmentation of social behavior motifs [0.0]
LISBET (seLf-supervIsed Social BEhavioral Transformer) を導入した。
本モデルでは,自己教師付き学習を用いることで,特徴選択や広範囲な人的アノテーションの必要性を解消する。
LISBETは、教師付き微調整を用いて行動分類を自動化する仮説駆動型モードや、教師なし学習を用いて社会的行動モチーフを分割する発見駆動型モードで使用することができる。
論文 参考訳(メタデータ) (2023-11-07T15:35:17Z) - MultiMediate'23: Engagement Estimation and Bodily Behaviour Recognition
in Social Interactions [42.94144353625103]
本研究では, 社会的相互作用における係り受け推定と身体行動認識という, コントロールされた課題において, 人間の社会的行動分析の課題を初めて解決する。
本稿では,MultiMediate'23の課題について述べる。
論文 参考訳(メタデータ) (2023-08-16T09:47:52Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - The world seems different in a social context: a neural network analysis
of human experimental data [57.729312306803955]
本研究では,先行・知覚的信号の精度を変化させることで,個人・社会的タスク設定の両方で人間の行動データを再現可能であることを示す。
トレーニングされたネットワークの神経活性化トレースの分析は、情報が個人や社会的条件のネットワークにおいて、根本的に異なる方法でコード化されていることを示す。
論文 参考訳(メタデータ) (2022-03-03T17:19:12Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。