Fugu-MT 論文翻訳(概要): GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation

論文の概要: GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation

arxiv url: http://arxiv.org/abs/2303.14655v2
Date: Thu, 5 Oct 2023 06:55:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 22:43:18.614467
Title: GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation
Title（参考訳）: GOAL: リアルタイムサッカー解説生成のための知識ベースビデオキャプションベンチマーク
Authors: Ji Qi, Jifan Yu, Teng Tu, Kunyu Gao, Yifan Xu, Xinyu Guan, Xiaozhi Wang, Yuxiao Dong, Bin Xu, Lei Hou, Juanzi Li, Jie Tang, Weidong Guo, Hui Liu, Yu Xu
Abstract要約: 我々は,KGVC(Knowledge-grounded Video Captioning)として新たなタスク設定を提案するための,8.9k以上のサッカービデオクリップ,22kの文,42kの知識トリプルのベンチマークであるGOALを提案する。私たちのデータとコードはhttps://github.com/THU-KEG/goal.orgで公開されています。
参考スコア（独自算出の注目度）: 75.60413443783953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the recent emergence of video captioning models, how to generate vivid, fine-grained video descriptions based on the background knowledge (i.e., long and informative commentary about the domain-specific scenes with appropriate reasoning) is still far from being solved, which however has great applications such as automatic sports narrative. In this paper, we present GOAL, a benchmark of over 8.9k soccer video clips, 22k sentences, and 42k knowledge triples for proposing a challenging new task setting as Knowledge-grounded Video Captioning (KGVC). Moreover, we conduct experimental adaption of existing methods to show the difficulty and potential directions for solving this valuable and applicable task. Our data and code are available at https://github.com/THU-KEG/goal.
Abstract（参考訳）: 近年のビデオキャプションモデルが出現したにも拘わらず、背景知識に基づく鮮明できめ細かなビデオ記述(すなわち、適切な推論を伴うドメイン固有のシーンについての長い情報的解説)をいかに生成するかはまだ未解決であり、自動スポーツ物語などの優れた応用例がある。本稿では,8.9k 以上のサッカー映像クリップ,22k文,42k 知識トリプルのベンチマークを行い,新たな課題設定を知識ベースビデオキャプション (kgvc) として提案する。さらに,既存の手法を実験的に適用して,この課題の解決の難しさと可能性を示す。データとコードはhttps://github.com/thu-keg/goal.com/で入手できる。

関連論文リスト

Do We Need Large VLMs for Spotting Soccer Actions? [4.334105740533729]
我々は、このビデオ中心のアプローチからテキストベースのタスクへのシフトを提案し、軽量でスケーラブルにする。専門家のコメントには、マッチにおける重要なアクションを確実に見つけるのに十分な情報が含まれていると仮定する。本実験は,この言語中心のアプローチが,臨界一致事象の検出に有効であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:45:54Z)
OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文参考訳（メタデータ） (2024-03-26T17:59:24Z)
Detours for Navigating Instructional Videos [58.1645668396789]
We propose VidDetours, a video-lang approach that learn to retrieve the target temporal segments from a large repository of how-to's。本稿では,ビデオ検索と質問応答の最良の方法に比べて,モデルが大幅に改善し,リコール率が35%を超えることを示す。
論文参考訳（メタデータ） (2024-01-03T16:38:56Z)
Implicit and Explicit Commonsense for Multi-sentence Video Captioning [33.969215964292395]
本稿では,暗黙的(視覚言語と純粋言語)と明示的(知識ベース)のコモンセンス知識を考慮に入れた,トランスフォーマーに基づく新しいビデオキャプションモデルを提案する。我々は,これらの形態の知識が,単独で,かつ組み合わせて,生成したキャプションの品質を高めることを示す。
論文参考訳（メタデータ） (2023-03-14T00:19:11Z)
Going for GOAL: A Resource for Grounded Football Commentaries [66.10040637644697]
本稿では,GrOunded footbAlLコメンタリー(GOAL)について紹介する。本稿では,フレームリオーダー,モーメント検索,ライブコメンタリー検索,プレイバイプレイのライブコメンタリー生成といったタスクに対して,最先端のベースラインを提供する。その結果,ほとんどのタスクにおいてSOTAモデルは合理的に機能することがわかった。
論文参考訳（メタデータ） (2022-11-08T20:04:27Z)
Learning Transferable Spatiotemporal Representations from Natural Script Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文参考訳（メタデータ） (2022-09-30T07:39:48Z)
A Multi-stage deep architecture for summary generation of soccer videos [11.41978608521222]
本稿では,音声メタデータとイベントメタデータの両方を利用して,サッカーの試合の要約を生成する手法を提案する。その結果,提案手法は一致の動作を検出し,どの動作が要約に属するべきかを識別し,複数の候補要約を提案する。
論文参考訳（メタデータ） (2022-05-02T07:26:35Z)
SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of Broadcast Soccer Videos [71.72665910128975]
SoccerNet-v2 は SoccerNet ビデオデータセット用の手動アノテーションの大規模なコーパスである。 SoccerNetの500の未トリミングサッカービデオの中で、約300万のアノテーションをリリースしています。サッカーの領域における現在のタスクを拡張し、アクションスポッティング、カメラショットセグメンテーション、境界検出を含む。
論文参考訳（メタデータ） (2020-11-26T16:10:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。