論文の概要: GAViD: A Large-Scale Multimodal Dataset for Context-Aware Group Affect Recognition from Videos
- arxiv url: http://arxiv.org/abs/2604.16214v1
- Date: Fri, 17 Apr 2026 16:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.002983
- Title: GAViD: A Large-Scale Multimodal Dataset for Context-Aware Group Affect Recognition from Videos
- Title(参考訳): GAViD:ビデオからの認識に影響を及ぼすコンテキスト認識グループのための大規模マルチモーダルデータセット
- Authors: Deepak Kumar, Abhishek Pratap Singh, Puneet Kumar, Xiaobai Li, Balasubramanian Raman,
- Abstract要約: 集団は、人間と人間の相互作用、文脈的影響、行動的手がかりから生じる。
マルチモーダルデータを用いた5091本のビデオクリップからなるViDeosデータセットのGroup Affectを紹介する。
また、マルチモーダルな文脈認識グループに対する文脈認識グループ影響認識ネットワーク(CAGNet)を提案する。
- 参考スコア(独自算出の注目度): 18.925387941274916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding affective dynamics in real-world social systems is fundamental to modeling and analyzing human-human interactions in complex environments. Group affect emerges from intertwined human-human interactions, contextual influences, and behavioral cues, making its quantitative modeling a challenging computational social systems problem. However, computational modeling of group affect in in-the-wild scenarios remains challenging due to limited large-scale annotated datasets and the inherent complexity of multimodal social interactions shaped by contextual and behavioral variability. The lack of comprehensive datasets annotated with multimodal and contextual information further limits advances in the field. To address this, we introduce the Group Affect from ViDeos (GAViD) dataset, comprising 5091 video clips with multimodal data (video, audio and context), annotated with ternary valence and discrete emotion labels and enriched with VideoGPT-generated contextual metadata and human-annotated action cues. We also present Context-Aware Group Affect Recognition Network (CAGNet) for multimodal context-aware group affect recognition. CAGNet achieves 63.20\% test accuracy on GAViD, comparable to state-of-the-art performance. The dataset and code are available at github.com/deepakkumar-iitr/GAViD.
- Abstract(参考訳): 実世界の社会システムにおける感情力学の理解は、複雑な環境における人間と人間の相互作用のモデリングと分析に不可欠である。
集団は、人間と人間の相互作用、文脈的影響、行動的手がかりから発生し、定量的なモデリングを困難な計算社会システム問題にしている。
しかし、大規模アノテートされたデータセットが限られており、文脈的・行動的変動によって形成されるマルチモーダルな社会的相互作用が本質的に複雑になるため、グループへの影響の計算はいまだに困難である。
マルチモーダルおよびコンテキスト情報に注釈を付けた包括的なデータセットの欠如により、この分野の進歩はさらに制限される。
これを解決するために,VDeos(GAViD)データセットを用いたグループAffectは,マルチモーダルデータ(ビデオ,音声,コンテキスト)を含む5091の動画クリップからなり,3値のアノテートと離散的感情ラベルを付加し,ビデオGPT生成のコンテキストメタデータと人間によるアノテート行動手がかりを付加する。
また、マルチモーダルな文脈認識グループに対する文脈認識グループ影響認識ネットワーク(CAGNet)を提案する。
CAGNetは、最先端のパフォーマンスに匹敵するGAViDで63.20\%のテスト精度を達成した。
データセットとコードはgithub.com/deepakkumar-iitr/GAViDで入手できる。
関連論文リスト
- Linking Heterogeneous Data with Coordinated Agent Flows for Social Media Analysis [24.70488591952602]
ソーシャルメディアプラットフォームは大量の異種データを生成する。
異種マルチモーダルデータをリンクするエージェントシステムであるSIA(Social Insight Agents)を提案する。
SIAはソーシャルメディアから多様で有意義な洞察を効果的に発見できることを示す。
論文 参考訳(メタデータ) (2025-10-30T06:22:49Z) - Learning Human-Object Interaction as Groups [52.28258599873394]
GroupHOIは、幾何学的近接性および意味的類似性の観点から文脈情報を伝播するフレームワークである。
これは、より困難な非言語間相互作用検出タスクにおいて、主要なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-10-21T07:25:10Z) - Dynamic Span Interaction and Graph-Aware Memory for Entity-Level Sentiment Classification [0.2099922236065961]
SpanEITは、エンティティレベルの感情分類のための新しいフレームワークである。
動的スパン相互作用とグラフ対応メモリ機構を統合し、強化されたエンティティ・センチメント・リレーショナル・モデリングを行う。
FSAD、BARU、IMDBデータセットの実験では、SpanEITは最先端のトランスフォーマーとハイブリッドベースラインの精度、F1スコアを上回っている。
論文 参考訳(メタデータ) (2025-09-15T05:47:57Z) - Affogato: Learning Open-Vocabulary Affordance Grounding with Automated Data Generation at Scale [41.693908591580175]
我々は、事前学習された部分認識型ビジョンバックボーンとテキスト条件のヒートマップデコーダを利用するビジョン言語モデルを開発した。
我々のモデルは既存の2Dおよび3Dベンチマークにおいて有望な性能を達成し、特にオープン語彙のクロスドメイン一般化において有効であることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:57:18Z) - Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。
最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。
本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文 参考訳(メタデータ) (2024-12-21T02:22:06Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Ranking-based Group Identification via Factorized Attention on Social
Tripartite Graph [68.08590487960475]
グループ識別のための文脈的要因認識(CFAG)という,GNNに基づく新しいフレームワークを提案する。
我々は3部グラフ畳み込み層を考案し、ユーザ、グループ、アイテム間の異なる種類の近隣からの情報を集約する。
データ疎度問題に対処するため,提案した因子化注意機構に基づく新しい伝搬増強層を考案した。
論文 参考訳(メタデータ) (2022-11-02T01:42:20Z) - Causal Scene BERT: Improving object detection by searching for
challenging groups of data [125.40669814080047]
コンピュータビジョンアプリケーションは、物体検出のようなタスクのためにニューラルネットワークでパラメータ化された学習ベースの知覚モジュールに依存している。
これらのモジュールは、トレーニングプロセスに固有のバイアスのため、予想される誤差が低いが、データの非定型的なグループに対して高い誤差を持つことが多い。
本研究の主な貢献は,シミュレートされたシーンに対して因果的介入を行うことにより,前向きにそのようなグループを発見する擬似オートマチック手法である。
論文 参考訳(メタデータ) (2022-02-08T05:14:16Z) - JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action,
Social Group and Activity Detection [54.696819174421584]
大学構内環境における生活行動の実際の分布を反映したマルチモーダルデータセットであるJRDB-Actを紹介する。
JRDB-Actには280万以上のアクションラベルがある。
JRDB-Actは、現場での対話に基づいて個人をグループ化するタスクに着想を得た社会集団識別アノテーションが付属している。
論文 参考訳(メタデータ) (2021-06-16T14:43:46Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。