論文の概要: Language-Instructed Reasoning for Group Activity Detection via Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2509.16054v1
- Date: Fri, 19 Sep 2025 15:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.21789
- Title: Language-Instructed Reasoning for Group Activity Detection via Multimodal Large Language Model
- Title(参考訳): マルチモーダル大言語モデルによるグループ活動検出のための言語指示型推論
- Authors: Jihua Peng, Qianxiong Xu, Yichen Liu, Chenxi Liu, Cheng Long, Rui Zhao, Ziyue Li,
- Abstract要約: グループアクティビティ検出(GAD)は、グループメンバーを同時に識別し、ビデオシーケンス内で集団アクティビティを分類することを目的としている。
MLLM(Multimodal Large Language Model)によるGADのための言語指示推論の新しいフレームワークであるLIR-GADを提案する。
- 参考スコア(独自算出の注目度): 25.33691537238948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group activity detection (GAD) aims to simultaneously identify group members and categorize their collective activities within video sequences. Existing deep learning-based methods develop specialized architectures (e.g., transformer networks) to model the dynamics of individual roles and semantic dependencies between individuals and groups. However, they rely solely on implicit pattern recognition from visual features and struggle with contextual reasoning and explainability. In this work, we propose LIR-GAD, a novel framework of language-instructed reasoning for GAD via Multimodal Large Language Model (MLLM). Our approach expand the original vocabulary of MLLM by introducing an activity-level <ACT> token and multiple cluster-specific <GROUP> tokens. We process video frames alongside two specially designed tokens and language instructions, which are then integrated into the MLLM. The pretrained commonsense knowledge embedded in the MLLM enables the <ACT> token and <GROUP> tokens to effectively capture the semantic information of collective activities and learn distinct representational features of different groups, respectively. Also, we introduce a multi-label classification loss to further enhance the <ACT> token's ability to learn discriminative semantic representations. Then, we design a Multimodal Dual-Alignment Fusion (MDAF) module that integrates MLLM's hidden embeddings corresponding to the designed tokens with visual features, significantly enhancing the performance of GAD. Both quantitative and qualitative experiments demonstrate the superior performance of our proposed method in GAD taks.
- Abstract(参考訳): グループアクティビティ検出(GAD)は、グループメンバーを同時に識別し、ビデオシーケンス内で集団アクティビティを分類することを目的としている。
既存のディープラーニングベースの手法では、個々の役割のダイナミクスと個人とグループ間の意味的依存関係をモデル化する特殊なアーキテクチャ(例えば、トランスフォーマーネットワーク)が開発されている。
しかし、視覚的特徴から暗黙的なパターン認識にのみ依存し、文脈的推論と説明可能性に苦しむ。
本稿では,MLLM(Multimodal Large Language Model)を用いたGADのための言語指示推論フレームワークであるLIR-GADを提案する。
本手法は,アクティビティレベル<ACT>トークンと複数のクラスタ固有の<GROUP>トークンを導入することで,MLLMの本来の語彙を拡張する。
ビデオフレームを2つの特別に設計されたトークンと言語命令と共に処理し、MLLMに統合する。
MLLMに組み込まれた事前学習されたコモンセンス知識により,<ACT>トークンと<GROUP>トークンが,集団活動の意味情報を効果的に把握し,それぞれ異なるグループの表現的特徴を学習することができる。
また,識別的意味表現を学習する<ACT>トークンの能力を高めるために,複数ラベルの分類損失を導入する。
そして,設計したトークンに対応するMLLMの隠れ埋め込みを視覚的特徴と統合したMDAFモジュールを設計し,GADの性能を大幅に向上させる。
定量的および定性的な実験は,GADタックにおける提案手法の優れた性能を示すものである。
関連論文リスト
- Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models [33.37379526356273]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。