論文の概要: Dynamic Group Detection using VLM-augmented Temporal Groupness Graph
- arxiv url: http://arxiv.org/abs/2509.04758v1
- Date: Fri, 05 Sep 2025 02:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.453951
- Title: Dynamic Group Detection using VLM-augmented Temporal Groupness Graph
- Title(参考訳): VLM強化時間的グループネスグラフを用いた動的グループ検出
- Authors: Kaname Yokoyama, Chihiro Nakatani, Norimichi Ukita,
- Abstract要約: 本稿では,ビデオ中の動的ヒューマングループ検出を提案する。
複雑なグループを検出するためには、グループ内のメンバーの局所的な外観の特徴だけでなく、シーンのグローバルな文脈も重要である。
提案手法は,公開データセット上での最先端グループ検出手法より優れている。
- 参考スコア(独自算出の注目度): 15.43013474885794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes dynamic human group detection in videos. For detecting complex groups, not only the local appearance features of in-group members but also the global context of the scene are important. Such local and global appearance features in each frame are extracted using a Vision-Language Model (VLM) augmented for group detection in our method. For further improvement, the group structure should be consistent over time. While previous methods are stabilized on the assumption that groups are not changed in a video, our method detects dynamically changing groups by global optimization using a graph with all frames' groupness probabilities estimated by our groupness-augmented CLIP features. Our experimental results demonstrate that our method outperforms state-of-the-art group detection methods on public datasets. Code: https://github.com/irajisamurai/VLM-GroupDetection.git
- Abstract(参考訳): 本稿では,ビデオ中の動的ヒューマングループ検出を提案する。
複雑なグループを検出するためには、グループ内のメンバーの局所的な外観の特徴だけでなく、シーンのグローバルな文脈も重要である。
本手法では,グループ検出のための視覚言語モデル(VLM)を用いて,各フレームの局所的およびグローバルな外観特徴を抽出する。
さらなる改善のためには、グループ構造は時間とともに一貫性を持っていなければならない。
従来の手法は,ビデオ中にグループが変化しないという仮定に基づいて安定化されているが,本手法は全フレームの集団性確率をグループ化したCLIP特徴量から推定したグラフを用いて,グローバル最適化により動的に変化するグループを検出する。
実験の結果,提案手法は,公開データセット上での最先端グループ検出法よりも優れていた。
コード:https://github.com/irajisamurai/VLM-GroupDetection.git
関連論文リスト
- Prompt-Guided Relational Reasoning for Social Behavior Understanding with Vision Foundation Models [8.36651942320007]
グループアクティビティ検出(GAD)は、ビデオ内での社会的グループとその集団行動を認識することを含む。
Vision Foundation Models(VFM)はDinoV2と同様、優れた機能を提供するが、主にオブジェクト中心のデータに基づいて事前訓練されている。
本稿では,Pmpt-driven Group Activity Detection (ProGraD)を導入し,そのギャップを1つに埋める手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T13:59:22Z) - Group-CLIP Uncertainty Modeling for Group Re-Identification [0.0]
Group ReIDは、重複しないカメラで歩行者のグループをマッチングすることを目的としている。
ほとんどの手法は、群像の特定のグループ構造のみを考慮した、確実性に基づくモデルに依存している。
本稿では,グループテキスト記述をメンバーとレイアウトのバリエーションに適応させるGCUM(Group-CLIP UncertaintyModeling)アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:41:35Z) - Vision Transformer based Random Walk for Group Re-Identification [15.63292108454152]
グループ再識別(re-ID)は、異なるカメラの下で同じ人とグループを一致させることを目的としている。
グループ再IDのための新しい視覚変換器に基づくランダムウォークフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T08:41:14Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Focus on the Common Good: Group Distributional Robustness Follows [47.62596240492509]
本稿では,多様なグループ間で共有される特徴の学習を明示的に促進する,新しい,シンプルなアルゴリズムを提案する。
グループDROは、最低の正規化損失を持つグループに焦点を当て、代わりに、他のグループでもより良いパフォーマンスを実現するグループに焦点を当てるが、共有/共通機能を学ぶことにつながる可能性がある。
論文 参考訳(メタデータ) (2021-10-06T09:47:41Z) - Learning Multi-Attention Context Graph for Group-Based Re-Identification [214.84551361855443]
オーバーラップしていないカメラシステムを介して人々のグループを再識別または取得することを学ぶことは、ビデオ監視において重要なアプリケーションです。
本研究では,グループre-idというグループを識別するためのコンテキスト情報の利用を検討する。
本研究では,グループベースリドタスクを同時に処理するグラフニューラルネットワークに基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T09:57:47Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z) - Overcoming Data Sparsity in Group Recommendation [52.00998276970403]
グループレコメンデータシステムは、ユーザの個人的な好みだけでなく、嗜好集約戦略も正確に学習できなければならない。
本稿では,BGEM(Bipartite Graphding Model)とGCN(Graph Convolutional Networks)を基本構造として,グループとユーザ表現を統一的に学習する。
論文 参考訳(メタデータ) (2020-10-02T07:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。