論文の概要: Player-Centric Multimodal Prompt Generation for Large Language Model Based Identity-Aware Basketball Video Captioning
- arxiv url: http://arxiv.org/abs/2507.20163v1
- Date: Sun, 27 Jul 2025 07:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.162591
- Title: Player-Centric Multimodal Prompt Generation for Large Language Model Based Identity-Aware Basketball Video Captioning
- Title(参考訳): 大規模言語モデルに基づく同一性を考慮したバスケットボールビデオキャプションのためのプレーヤー中心型マルチモーダルプロンプト生成
- Authors: Zeyu Xi, Haoying Sun, Yaofei Wu, Junchi Yan, Haoran Zhang, Lifang Wu, Liang Wang, Changwen Chen,
- Abstract要約: 既存のスポーツビデオキャプション手法は、プレイヤーのアイデンティティを見落としているアクションに焦点を合わせ、適用性を制限していることが多い。
本稿では,個人対応スポーツビデオキャプション(LLM-IAVC)のためのプレイヤー中心型マルチモーダルプロンプト生成ネットワークを提案する。
NBA-Identityという,9つの主要なイベントを対象とする9,726本のビデオを備えた,大きなアイデンティティを意識したバスケットボールビデオキャプションデータセットを構築した。
- 参考スコア(独自算出の注目度): 66.61493163603339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing sports video captioning methods often focus on the action yet overlook player identities, limiting their applicability. Although some methods integrate extra information to generate identity-aware descriptions, the player identities are sometimes incorrect because the extra information is independent of the video content. This paper proposes a player-centric multimodal prompt generation network for identity-aware sports video captioning (LLM-IAVC), which focuses on recognizing player identities from a visual perspective. Specifically, an identity-related information extraction module (IRIEM) is designed to extract player-related multimodal embeddings. IRIEM includes a player identification network (PIN) for extracting visual features and player names, and a bidirectional semantic interaction module (BSIM) to link player features with video content for mutual enhancement. Additionally, a visual context learning module (VCLM) is designed to capture the key video context information. Finally, by integrating the outputs of the above modules as the multimodal prompt for the large language model (LLM), it facilitates the generation of descriptions with player identities. To support this work, we construct a new benchmark called NBA-Identity, a large identity-aware basketball video captioning dataset with 9,726 videos covering 9 major event types. The experimental results on NBA-Identity and VC-NBA-2022 demonstrate that our proposed model achieves advanced performance. Code and dataset are publicly available at https://github.com/Zeyu1226-mt/LLM-IAVC.
- Abstract(参考訳): 既存のスポーツビデオキャプション手法は、プレイヤーのアイデンティティを見落としているアクションに焦点を合わせ、適用性を制限していることが多い。
一部の方法は、追加情報を統合してアイデンティティを意識した記述を生成するが、追加情報はビデオコンテンツとは独立しているため、プレイヤのアイデンティティは時に誤りである。
本稿では,スポーツビデオキャプション(LLM-IAVC)のための,プレイヤー中心のマルチモーダルプロンプト生成ネットワークを提案する。
具体的には、ID関連情報抽出モジュール(IRIEM)は、プレイヤー関連マルチモーダル埋め込みを抽出するために設計されている。
IRIEMには、視覚的特徴とプレイヤー名を抽出するプレイヤー識別ネットワーク(PIN)と、プレイヤー特徴とビデオコンテンツを相互に拡張するための双方向意味相互作用モジュール(BSIM)が含まれている。
さらに、視覚的コンテキスト学習モジュール(VCLM)は、主要なビデオコンテキスト情報をキャプチャするように設計されている。
最後に、上記のモジュールの出力を大規模言語モデル(LLM)のマルチモーダルプロンプトとして統合することにより、プレイヤーIDによる記述の生成を容易にする。
この作業を支援するため、NBA-Identityと呼ばれる新しいベンチマークを構築した。
NBA-Identity と VC-NBA-2022 の実験結果から,提案モデルが高度な性能を実現することを示す。
コードとデータセットはhttps://github.com/Zeyu1226-mt/LLM-IAVCで公開されている。
関連論文リスト
- Proteus-ID: ID-Consistent and Motion-Coherent Video Customization [17.792780924370103]
ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。
この課題は、説明された外観や動作と整合しながらアイデンティティの整合性を維持すること、非現実的な剛性のない自然な流体運動を生成することである。
Proteus-IDは、アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための、新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-06-30T11:05:32Z) - IPFormer-VideoLLM: Enhancing Multi-modal Video Understanding for Multi-shot Scenes [20.662082715151886]
我々はマルチクリップ・ベンチと呼ばれる新しいデータセットを導入し、マルチショットシナリオに適した濃密な記述と命令ベースの質問応答ペアを特徴付ける。
インスタンスレベルの機能をインスタンスレベルで注入する新たなモデルIPFormer-VideoLLMを、効率的な注意ベースのコネクタを通じて提供します。
論文 参考訳(メタデータ) (2025-06-26T09:30:57Z) - IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model [52.697180472760635]
本稿では,複数の視覚シナリオにまたがるキャラクタ・アイデンティティ・メモリと認識の可能性について検討する。
我々は,ID参照を用いた視覚的指導チューニングを提案し,ID対応大規模視覚言語モデル IDA-VLM を開発した。
本研究は,4次元にわたるインスタンスIDのメモリと認識におけるLVLMの検証を行うための,新しいベンチマークMM-IDを提案する。
論文 参考訳(メタデータ) (2024-07-10T12:11:59Z) - Domain-Guided Masked Autoencoders for Unique Player Identification [62.87054782745536]
マスク付きオートエンコーダ (MAE) は, 従来の特徴抽出器よりも優れた代替手段として出現している。
人間の視覚に触発され、我々はd-MAEと呼ばれるMAEのための新しいドメイン誘導マスキングポリシーを考案した。
3つの大規模スポーツデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-03-17T20:14:57Z) - Knowledge Guided Entity-aware Video Captioning and A Basketball
Benchmark [49.54265459763042]
バスケットボールゲーム知識グラフ(KG_NBA_2022)を構築し,ビデオ以外の知識を提供する。
そして、KG_NBA_2022に基づいて、9種類のきめ細かいシューティングイベントと286人のプレイヤーの知識を含むデータセットを構築する。
バスケットボールのライブテキスト放送のためのエンコーダデコーダ形式の候補選手リストに基づいて,知識ガイド付きエンティティ対応ビデオキャプションネットワーク(KEANet)を開発した。
論文 参考訳(メタデータ) (2024-01-25T02:08:37Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-22T09:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。