論文の概要: Group-DINOmics: Incorporating People Dynamics into DINO for Self-supervised Group Activity Feature Learning
- arxiv url: http://arxiv.org/abs/2604.04467v1
- Date: Mon, 06 Apr 2026 06:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.119622
- Title: Group-DINOmics: Incorporating People Dynamics into DINO for Self-supervised Group Activity Feature Learning
- Title(参考訳): グループ・ディノミクス:DINOに人体ダイナミクスを取り入れたグループ・アクティビティ・フィーチャーラーニング
- Authors: Ryuki Tezuka, Chihiro Nakatani, Norimichi Ukita,
- Abstract要約: 本稿では,DINOが提供する局所的・グローバル的特徴をグループ力学学習に適用する。
DINOをローカルなダイナミクスやグローバルなグループ機能に適応させるためには,人フロー推定とグループ関連オブジェクト位置推定を用いる。
公開データセットを用いた実験は,グループ活動検索と認識における手法の最先端性能を示すものである。
- 参考スコア(独自算出の注目度): 15.39227972929495
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes Group Activity Feature (GAF) learning without group activity annotations. Unlike prior work, which uses low-level static local features to learn GAFs, we propose leveraging dynamics-aware and group-aware pretext tasks, along with local and global features provided by DINO, for group-dynamics-aware GAF learning. To adapt DINO and GAF learning to local dynamics and global group features, our pretext tasks use person flow estimation and group-relevant object location estimation, respectively. Person flow estimation is used to represent the local motion of each person, which is an important cue for understanding group activities. In contrast, group-relevant object location estimation encourages GAFs to learn scene context (e.g., spatial relations of people and objects) as global features. Comprehensive experiments on public datasets demonstrate the state-of-the-art performance of our method in group activity retrieval and recognition. Our ablation studies verify the effectiveness of each component in our method. Code: https://github.com/tezuka0001/Group-DINOmics.
- Abstract(参考訳): 本稿では,グループアクティビティアノテーションを使わずにGAF(Group Activity Feature)学習を提案する。
GAFを学習するために低レベルな静的な局所的特徴を使用する従来の作業とは異なり、DINOが提供する局所的およびグローバル的機能とともに、動的に認識されたグループ対応のプレテキストタスクをグループ動的に認識するGAF学習に活用することを提案する。
DINOとGAFの学習を局所的ダイナミクスとグローバルなグループ特徴に適応させるために、私たちのプレテキストタスクは、それぞれ人フロー推定とグループ関連オブジェクト位置推定を使用する。
個人フロー推定は,グループ活動を理解する上で重要な手がかりである各人物の局所的な動きを表現するために用いられる。
対照的に、グループ関連オブジェクトの位置推定は、GAFが世界的特徴としてシーンコンテキスト(人や物の空間的関係など)を学習することを奨励する。
公開データセットの総合的な実験により,グループ活動検索と認識における手法の最先端性能が実証された。
我々のアブレーション研究は,本手法における各成分の有効性を検証した。
コード:https://github.com/tezuka0001/Group-Dinomics。
関連論文リスト
- Learning Human-Object Interaction as Groups [52.28258599873394]
GroupHOIは、幾何学的近接性および意味的類似性の観点から文脈情報を伝播するフレームワークである。
これは、より困難な非言語間相互作用検出タスクにおいて、主要なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-10-21T07:25:10Z) - Dynamic Group Detection using VLM-augmented Temporal Groupness Graph [15.43013474885794]
本稿では,ビデオ中の動的ヒューマングループ検出を提案する。
複雑なグループを検出するためには、グループ内のメンバーの局所的な外観の特徴だけでなく、シーンのグローバルな文脈も重要である。
提案手法は,公開データセット上での最先端グループ検出手法より優れている。
論文 参考訳(メタデータ) (2025-09-05T02:37:01Z) - GRA: Detecting Oriented Objects through Group-wise Rotating and Attention [64.21917568525764]
GRA(Group-wise Rotating and Attention)モジュールは、オブジェクト指向オブジェクト検出のためのバックボーンネットワークにおける畳み込み操作を置き換えるために提案されている。
GRAは、グループワイド回転(Group-wise Rotating)とグループワイド注意(Group-wise Attention)という2つの重要なコンポーネントを含む、さまざまな向きのオブジェクトのきめ細かい特徴を適応的にキャプチャすることができる。
GRAはDOTA-v2.0ベンチマークで新しい最先端(SOTA)を実現し、以前のSOTA法と比較してパラメータを50%近く削減した。
論文 参考訳(メタデータ) (2024-03-17T07:29:32Z) - Learning Group Activity Features Through Person Attribute Prediction [13.964739198311001]
グループ活動特徴(GAF)学習を提案する。
ネットワーク全体をエンドツーエンドで学習することにより、グループ内の人々の特性をトレーニングする。
論文 参考訳(メタデータ) (2024-03-05T08:19:44Z) - Towards More Practical Group Activity Detection: A New Benchmark and Model [61.39427407758131]
グループアクティビティ検出(グループアクティビティ検出、英: Group Activity Detection、GAD)は、ビデオにおいて、各グループのメンバを特定し、同時にグループのアクティビティを分類するタスクである。
私たちはCaf'eと呼ばれる新しいデータセットを提示し、より実用的なシナリオとメトリクスを提示します。
また、未知数のグループと潜在グループメンバーを効率的に効率的に扱う新しいGADモデルを提案する。
論文 参考訳(メタデータ) (2023-12-05T16:48:17Z) - Hunting Group Clues with Transformers for Social Group Activity
Recognition [3.1061678033205635]
社会的グループ活動認識には、複数のサブグループ活動を認識し、グループメンバーを特定する必要がある。
既存のほとんどのメソッドは、リージョンの機能を精錬し、それらをアクティビティのフィーチャにまとめることで、両方のタスクに取り組みます。
我々は,効果的なソーシャルグループ機能を生成するために,トランスフォーマーのアテンションモジュールを活用することを提案する。
本手法は,アテンションモジュールが社会的グループ活動に関連する特徴を識別し,集約するように設計されている。
論文 参考訳(メタデータ) (2022-07-12T01:46:46Z) - Pose is all you need: The pose only group activity recognition system
(POGARS) [7.876115370275732]
本稿では,Pose Only Group Activity Recognition System(POGARS)という,ディープラーニングに基づくグループアクティビティ認識手法を提案する。
POGARSは1D CNNを使用して、グループ活動に関わる個人のダイナミクスを学習し、ピクセルデータから学習を強制する。
実験結果から,POGARSは,広く使用されているバレーボールデータセットの最先端手法と比較して,高い競争力を発揮することが確認された。
論文 参考訳(メタデータ) (2021-08-09T17:16:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。