論文の概要: Nonverbal Interaction Detection
- arxiv url: http://arxiv.org/abs/2407.08133v2
- Date: Sun, 14 Jul 2024 13:33:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 13:31:11.124089
- Title: Nonverbal Interaction Detection
- Title(参考訳): 非言語的相互作用検出
- Authors: Jianan Wei, Tianfei Zhou, Yi Yang, Wenguan Wang,
- Abstract要約: この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。
第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
- 参考スコア(独自算出の注目度): 83.40522919429337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses a new challenge of understanding human nonverbal interaction in social contexts. Nonverbal signals pervade virtually every communicative act. Our gestures, facial expressions, postures, gaze, even physical appearance all convey messages, without anything being said. Despite their critical role in social life, nonverbal signals receive very limited attention as compared to the linguistic counterparts, and existing solutions typically examine nonverbal cues in isolation. Our study marks the first systematic effort to enhance the interpretation of multifaceted nonverbal signals. First, we contribute a novel large-scale dataset, called NVI, which is meticulously annotated to include bounding boxes for humans and corresponding social groups, along with 22 atomic-level nonverbal behaviors under five broad interaction types. Second, we establish a new task NVI-DET for nonverbal interaction detection, which is formalized as identifying triplets in the form <individual, group, interaction> from images. Third, we propose a nonverbal interaction detection hypergraph (NVI-DEHR), a new approach that explicitly models high-order nonverbal interactions using hypergraphs. Central to the model is a dual multi-scale hypergraph that adeptly addresses individual-to-individual and group-to-group correlations across varying scales, facilitating interactional feature learning and eventually improving interaction prediction. Extensive experiments on NVI show that NVI-DEHR improves various baselines significantly in NVI-DET. It also exhibits leading performance on HOI-DET, confirming its versatility in supporting related tasks and strong generalization ability. We hope that our study will offer the community new avenues to explore nonverbal signals in more depth.
- Abstract(参考訳): この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
非言語信号は事実上すべてのコミュニケーション行為に及んでいる。
私たちのジェスチャー、表情、姿勢、視線、身体的外観でさえ、何も言わずにメッセージを伝える。
社会生活において重要な役割を担っているにもかかわらず、非言語的信号は言語的信号と比較して非常に注意を引いており、既存の解は通常、非言語的手がかりを独立して調べている。
本研究は,多面的非言語信号の解釈を強化するための最初の体系的な取り組みである。
まず,NVIと呼ばれる新しい大規模データセットについて述べる。このデータセットは,人間とそれに対応する社会集団の接頭辞と,5つの幅広い相互作用型に基づく22の原子レベルの非言語行動を含むように細心の注意を払って注釈付けされている。
第2に,非言語的インタラクション検出のための新しいタスクNVI-DETを構築し,画像から「個人的,グループ的,インタラクション」の形で三重項を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
モデルの中心は2つのマルチスケールハイパーグラフであり、様々なスケールにわたる個人と個人、グループ、グループ間の相関に順応的に対処し、相互作用の特徴学習を容易にし、最終的には相互作用予測を改善する。
NVI-DEHRはNVI-DETにおいて様々な基線を著しく改善することを示した。
また、HOI-DETでの主要なパフォーマンスを示し、関連するタスクと強力な一般化能力をサポートするための汎用性を確認している。
われわれの研究が、非言語的なシグナルをより深く探求するための新たな道を提供することを期待している。
関連論文リスト
- Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations [20.848802791989307]
本稿では,複数の人物間の微粒化動態をモデル化するための3つの新しい課題を紹介する。
視覚特徴とそれに対応する発話を同期させることにより、密集した言語-視覚表現を活用する新しいマルチモーダルベースラインを提案する。
実験では, よりきめ細かい社会相互作用をモデル化する上で, 密集したマルチモーダル表現を用いた提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-03-04T14:46:58Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Learning Graph Representation of Person-specific Cognitive Processes
from Audio-visual Behaviours for Automatic Personality Recognition [17.428626029689653]
本稿では,対象対象者固有の認知を,個人固有のCNNアーキテクチャの形で表現することを提案する。
各人物固有のCNNは、ニューラルアーキテクチャサーチ(NAS)と新しい適応損失関数によって探索される。
実験の結果,生成したグラフ表現は対象者の性格特性とよく関連していることがわかった。
論文 参考訳(メタデータ) (2021-10-26T11:04:23Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。