論文の概要: GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for
Real-time Soccer Commentary Generation
- arxiv url: http://arxiv.org/abs/2303.14655v1
- Date: Sun, 26 Mar 2023 08:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:19:48.844311
- Title: GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for
Real-time Soccer Commentary Generation
- Title(参考訳): GOAL: リアルタイムサッカー解説生成のための知識ベースビデオキャプションベンチマーク
- Authors: Ji Qi, Jifan Yu, Teng Tu, Kunyu Gao, Yifan Xu, Xinyu Guan, Xiaozhi
Wang, Yuxiao Dong, Bin Xu, Lei Hou, Juanzi Li, Jie Tang, Weidong Guo, Hui
Liu, Yu Xu
- Abstract要約: 我々は,KGVC(Knowledge-grounded Video Captioning)として,サッカービデオクリップ8.9k,文22k,知識3分の3以上のベンチマークを提示する。
我々は,既存の手法を実験的に適用し,この課題の解決の難しさと可能性を示す。
- 参考スコア(独自算出の注目度): 42.029245392634024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent emergence of video captioning models, how to generate
vivid, fine-grained video descriptions based on the background knowledge (i.e.,
long and informative commentary about the domain-specific scenes with
appropriate reasoning) is still far from being solved, which however has great
applications such as automatic sports narrative. In this paper, we present
GOAL, a benchmark of over 8.9k soccer video clips, 22k sentences, and 42k
knowledge triples for proposing a challenging new task setting as
Knowledge-grounded Video Captioning (KGVC). Moreover, we conduct experimental
adaption of existing methods to show the difficulty and potential directions
for solving this valuable and applicable task.
- Abstract(参考訳): 近年のビデオキャプションモデルが出現したにも拘わらず、背景知識に基づく鮮明できめ細かなビデオ記述(すなわち、適切な推論を伴うドメイン固有のシーンについての長い情報的解説)をいかに生成するかはまだ未解決であり、自動スポーツ物語などの優れた応用例がある。
本稿では,8.9k 以上のサッカー映像クリップ,22k文,42k 知識トリプルのベンチマークを行い,新たな課題設定を知識ベースビデオキャプション (kgvc) として提案する。
さらに,既存の手法を実験的に適用して,この課題の解決の難しさと可能性を示す。
関連論文リスト
- OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Detours for Navigating Instructional Videos [58.1645668396789]
We propose VidDetours, a video-lang approach that learn to retrieve the target temporal segments from a large repository of how-to's。
本稿では,ビデオ検索と質問応答の最良の方法に比べて,モデルが大幅に改善し,リコール率が35%を超えることを示す。
論文 参考訳(メタデータ) (2024-01-03T16:38:56Z) - Implicit and Explicit Commonsense for Multi-sentence Video Captioning [33.969215964292395]
本稿では,暗黙的(視覚言語と純粋言語)と明示的(知識ベース)のコモンセンス知識を考慮に入れた,トランスフォーマーに基づく新しいビデオキャプションモデルを提案する。
我々は,これらの形態の知識が,単独で,かつ組み合わせて,生成したキャプションの品質を高めることを示す。
論文 参考訳(メタデータ) (2023-03-14T00:19:11Z) - Going for GOAL: A Resource for Grounded Football Commentaries [66.10040637644697]
本稿では,GrOunded footbAlLコメンタリー(GOAL)について紹介する。
本稿では,フレームリオーダー,モーメント検索,ライブコメンタリー検索,プレイバイプレイのライブコメンタリー生成といったタスクに対して,最先端のベースラインを提供する。
その結果,ほとんどのタスクにおいてSOTAモデルは合理的に機能することがわかった。
論文 参考訳(メタデータ) (2022-11-08T20:04:27Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z) - A Multi-stage deep architecture for summary generation of soccer videos [11.41978608521222]
本稿では,音声メタデータとイベントメタデータの両方を利用して,サッカーの試合の要約を生成する手法を提案する。
その結果,提案手法は一致の動作を検出し,どの動作が要約に属するべきかを識別し,複数の候補要約を提案する。
論文 参考訳(メタデータ) (2022-05-02T07:26:35Z) - SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of
Broadcast Soccer Videos [71.72665910128975]
SoccerNet-v2 は SoccerNet ビデオデータセット用の手動アノテーションの大規模なコーパスである。
SoccerNetの500の未トリミングサッカービデオの中で、約300万のアノテーションをリリースしています。
サッカーの領域における現在のタスクを拡張し、アクションスポッティング、カメラショットセグメンテーション、境界検出を含む。
論文 参考訳(メタデータ) (2020-11-26T16:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。