論文の概要: Prompt-Guided Relational Reasoning for Social Behavior Understanding with Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2508.07996v1
- Date: Mon, 11 Aug 2025 13:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.130029
- Title: Prompt-Guided Relational Reasoning for Social Behavior Understanding with Vision Foundation Models
- Title(参考訳): ビジョンファウンデーションモデルを用いた社会的行動理解のためのプロンプトガイド型関係推論
- Authors: Thinesh Thiyakesan Ponbagavathi, Chengzheng Yang, Alina Roitberg,
- Abstract要約: グループアクティビティ検出(GAD)は、ビデオ内での社会的グループとその集団行動を認識することを含む。
Vision Foundation Models(VFM)はDinoV2と同様、優れた機能を提供するが、主にオブジェクト中心のデータに基づいて事前訓練されている。
本稿では,Pmpt-driven Group Activity Detection (ProGraD)を導入し,そのギャップを1つに埋める手法を提案する。
- 参考スコア(独自算出の注目度): 8.36651942320007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Activity Detection (GAD) involves recognizing social groups and their collective behaviors in videos. Vision Foundation Models (VFMs), like DinoV2, offer excellent features, but are pretrained primarily on object-centric data and remain underexplored for modeling group dynamics. While they are a promising alternative to highly task-specific GAD architectures that require full fine-tuning, our initial investigation reveals that simply swapping CNN backbones used in these methods with VFMs brings little gain, underscoring the need for structured, group-aware reasoning on top. We introduce Prompt-driven Group Activity Detection (ProGraD) -- a method that bridges this gap through 1) learnable group prompts to guide the VFM attention toward social configurations, and 2) a lightweight two-layer GroupContext Transformer that infers actor-group associations and collective behavior. We evaluate our approach on two recent GAD benchmarks: Cafe, which features multiple concurrent social groups, and Social-CAD, which focuses on single-group interactions. While we surpass state-of-the-art in both settings, our method is especially effective in complex multi-group scenarios, where we yield a gain of 6.5\% (Group mAP\@1.0) and 8.2\% (Group mAP\@0.5) using only 10M trainable parameters. Furthermore, our experiments reveal that ProGraD produces interpretable attention maps, offering insights into actor-group reasoning. Code and models will be released.
- Abstract(参考訳): グループアクティビティ検出(GAD)は、ビデオ内での社会的グループとその集団行動を認識することを含む。
DinoV2と同様、Vision Foundation Models (VFM) は優れた機能を提供しているが、主にオブジェクト中心のデータに基づいて事前訓練されており、グループダイナミクスのモデリングには未熟である。
完全な微調整を必要とするタスク固有のGADアーキテクチャに代わる、有望な代替手段ですが、最初の調査では、これらのメソッドで使用されるCNNバックボーンをVFMに置き換えれば、ほとんど利益が得られず、上部に構造化されたグループ対応の推論の必要性が強調されています。
ProGraD (Prompt-driven Group Activity Detection) - このギャップを埋める手法。
1)学習可能なグループプロンプトは、VFMの注意を社会構成へ誘導し、
2) アクターグループアソシエーションと集団行動を予測する軽量な2層グループコンテキストトランスフォーマー。
我々は、複数のソーシャルグループを特徴とするCafeと、単一グループインタラクションに焦点を当てたSocial-CADの2つのGADベンチマークに対するアプローチを評価した。
両設定で最先端を超越するが,本手法は複雑なマルチグループシナリオにおいて特に有効であり,10Mのトレーニング可能なパラメータのみを用いて6.5\%(Group mAP\@1.0)と8.2\%(Group mAP\@0.5)のゲインが得られる。
さらに,本実験では,ProGraDが解釈可能なアテンションマップを生成し,アクターグループ推論の洞察を提供する。
コードとモデルはリリースされる。
関連論文リスト
- Hierarchical Multi-Graphs Learning for Robust Group Re-Identification [28.79580663619657]
グループ再識別(G-ReID)は個々の再識別(ReID)よりも複雑である
従来のグラフベースのアプローチは、群を単一の位相構造としてモデル化することで、これらのダイナミクスを捉えることを目的としていた。
これらの課題に対処するために,階層型多グラフ学習フレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-25T03:33:43Z) - Towards More Practical Group Activity Detection: A New Benchmark and Model [61.39427407758131]
グループアクティビティ検出(グループアクティビティ検出、英: Group Activity Detection、GAD)は、ビデオにおいて、各グループのメンバを特定し、同時にグループのアクティビティを分類するタスクである。
私たちはCaf'eと呼ばれる新しいデータセットを提示し、より実用的なシナリオとメトリクスを提示します。
また、未知数のグループと潜在グループメンバーを効率的に効率的に扱う新しいGADモデルを提案する。
論文 参考訳(メタデータ) (2023-12-05T16:48:17Z) - Ranking-based Group Identification via Factorized Attention on Social
Tripartite Graph [68.08590487960475]
グループ識別のための文脈的要因認識(CFAG)という,GNNに基づく新しいフレームワークを提案する。
我々は3部グラフ畳み込み層を考案し、ユーザ、グループ、アイテム間の異なる種類の近隣からの情報を集約する。
データ疎度問題に対処するため,提案した因子化注意機構に基づく新しい伝搬増強層を考案した。
論文 参考訳(メタデータ) (2022-11-02T01:42:20Z) - Graph Neural Netwrok with Interaction Pattern for Group Recommendation [1.066048003460524]
GIP4GRモデル(グループ推薦のための相互作用パターン付きグラフニューラルネットワーク)を提案する。
具体的には,グラフのトポロジ的構造におけるグループ・ユーザ間相互作用を表現するために,強力な表現能力を持つグラフニューラルネットワークフレームワークを用いた。
2つの実世界のデータセットで多くの実験を行い、モデルの優れた性能を実証した。
論文 参考訳(メタデータ) (2021-09-21T13:42:46Z) - Double-Scale Self-Supervised Hypergraph Learning for Group
Recommendation [35.841350982832545]
グループレコメンデーションは、データスパシティの問題に深刻な問題を抱えています。
本稿では,グループ推薦のための自己教師付きハイパーグラフ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T12:19:49Z) - Learning Multi-Attention Context Graph for Group-Based Re-Identification [214.84551361855443]
オーバーラップしていないカメラシステムを介して人々のグループを再識別または取得することを学ぶことは、ビデオ監視において重要なアプリケーションです。
本研究では,グループre-idというグループを識別するためのコンテキスト情報の利用を検討する。
本研究では,グループベースリドタスクを同時に処理するグラフニューラルネットワークに基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T09:57:47Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Overcoming Data Sparsity in Group Recommendation [52.00998276970403]
グループレコメンデータシステムは、ユーザの個人的な好みだけでなく、嗜好集約戦略も正確に学習できなければならない。
本稿では,BGEM(Bipartite Graphding Model)とGCN(Graph Convolutional Networks)を基本構造として,グループとユーザ表現を統一的に学習する。
論文 参考訳(メタデータ) (2020-10-02T07:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。