論文の概要: Knowledge Guided Entity-aware Video Captioning and A Basketball
Benchmark
- arxiv url: http://arxiv.org/abs/2401.13888v2
- Date: Wed, 28 Feb 2024 02:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 18:03:25.436831
- Title: Knowledge Guided Entity-aware Video Captioning and A Basketball
Benchmark
- Title(参考訳): 知識誘導型エンティティ認識ビデオキャプションとバスケットボールベンチマーク
- Authors: Zeyu Xi and Ge Shi and Xuefen Li and Junchi Yan and Zun Li and Lifang
Wu and Zilin Liu and Liang Wang
- Abstract要約: バスケットボールゲーム知識グラフ(KG_NBA_2022)を構築し,ビデオ以外の知識を提供する。
そして、KG_NBA_2022に基づいて、9種類のきめ細かいシューティングイベントと286人のプレイヤーの知識を含むデータセットを構築する。
バスケットボールのライブテキスト放送のためのエンコーダデコーダ形式の候補選手リストに基づいて,知識ガイド付きエンティティ対応ビデオキャプションネットワーク(KEANet)を開発した。
- 参考スコア(独自算出の注目度): 49.54265459763042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent emergence of video captioning models, how to generate the
text description with specific entity names and fine-grained actions is far
from being solved, which however has great applications such as basketball live
text broadcast. In this paper, a new multimodal knowledge graph supported
basketball benchmark for video captioning is proposed. Specifically, we
construct a multimodal basketball game knowledge graph (KG_NBA_2022) to provide
additional knowledge beyond videos. Then, a multimodal basketball game video
captioning (VC_NBA_2022) dataset that contains 9 types of fine-grained shooting
events and 286 players' knowledge (i.e., images and names) is constructed based
on KG_NBA_2022. We develop a knowledge guided entity-aware video captioning
network (KEANet) based on a candidate player list in encoder-decoder form for
basketball live text broadcast. The temporal contextual information in video is
encoded by introducing the bi-directional GRU (Bi-GRU) module. And the
entity-aware module is designed to model the relationships among the players
and highlight the key players. Extensive experiments on multiple sports
benchmarks demonstrate that KEANet effectively leverages extera knowledge and
outperforms advanced video captioning models. The proposed dataset and
corresponding codes will be publicly available soon
- Abstract(参考訳): 最近のビデオキャプションモデルの出現にもかかわらず、特定のエンティティ名と細かなアクションによるテキスト記述の生成方法は解決に至らず、バスケットボールのライブテキスト放送のような素晴らしい応用がある。
本稿では,ビデオキャプションのためのマルチモーダル知識グラフをサポートするバスケットボールベンチマークを提案する。
具体的には,マルチモーダルバスケットボールゲーム知識グラフ(KG_NBA_2022)を構築し,ビデオ以外の知識を提供する。
そして、KG_NBA_2022に基づいて、9種類のきめ細かいシューティングイベントと286人のプレイヤーの知識(画像と名前)を含むマルチモーダルバスケットボールゲームビデオキャプション(VC_NBA_2022)データセットを構築する。
バスケットボールのライブテキスト放送のためのエンコーダデコーダ形式の候補選手リストに基づいて,知識ガイド付きエンティティ対応ビデオキャプションネットワーク(KEANet)を開発した。
ビデオ中の時間的文脈情報は、双方向GRU(Bi-GRU)モジュールを導入して符号化される。
そして、エンティティ認識モジュールは、プレイヤー間の関係をモデル化し、キープレーヤーを強調するように設計されている。
複数のスポーツベンチマークに関する大規模な実験は、KEANetが外部知識を効果的に活用し、高度なビデオキャプションモデルより優れていることを示している。
提案されたデータセットと対応するコードが近く公開される
関連論文リスト
- A Simple and Effective Temporal Grounding Pipeline for Basketball Broadcast Footage [0.0]
バスケットボール放送映像の映像から分析的アライメントのための信頼性の高い時間的グラウンドパイプラインを提案する。
本手法は,ビデオフレームに高密度なイベントアノテーションを含むプレイバイプレイアノテーションのラベル付きコーパスを調整し,ラベル付きビデオセグメントの迅速な検索を可能にする。
論文 参考訳(メタデータ) (2024-10-30T17:27:44Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - Videoprompter: an ensemble of foundational models for zero-shot video
understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T19:45:46Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for
Real-time Soccer Commentary Generation [75.60413443783953]
我々は,KGVC(Knowledge-grounded Video Captioning)として新たなタスク設定を提案するための,8.9k以上のサッカービデオクリップ,22kの文,42kの知識トリプルのベンチマークであるGOALを提案する。
私たちのデータとコードはhttps://github.com/THU-KEG/goal.orgで公開されています。
論文 参考訳(メタデータ) (2023-03-26T08:43:36Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos [64.57435509822416]
この作品は、ワールド・テーブルテニス選手権とオリンピアードのプロの卓球試合の放送ビデオから収集された2,721本のビデオクリップで構成されている。
強調局所化と強調認識という2つのアクション検出問題を定式化する。
その結果、TheNameは依然として困難なタスクであり、ビデオからの高密度なアクション検出のための特別なベンチマークとして使用できることを確認した。
論文 参考訳(メタデータ) (2022-07-26T08:34:17Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。