論文の概要: Large VLM-based Stylized Sports Captioning
- arxiv url: http://arxiv.org/abs/2508.19295v1
- Date: Mon, 25 Aug 2025 17:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.357511
- Title: Large VLM-based Stylized Sports Captioning
- Title(参考訳): 大型VLMによるスティル化スポーツキャプション
- Authors: Sauptik Dhar, Nicholas Buoncristiani, Joe Anakata, Haoyu Zhang, Michelle Munson,
- Abstract要約: 本研究は, 既存の SoTA LLM/LVLM による画像からのスポーツキャプション生成の限界を強調するものである。
これに対処する2レベル細調整LVLMパイプラインを提案する。
スーパーボウルLIXの間、パイプラインはプロスポーツジャーナリズムの実践的な応用を証明した。
- 参考スコア(独自算出の注目度): 8.360354943451325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of large (visual) language models (LLM / LVLM) have led to a deluge of automated human-like systems in several domains including social media content generation, search and recommendation, healthcare prognosis, AI assistants for cognitive tasks etc. Although these systems have been successfully integrated in production; very little focus has been placed on sports, particularly accurate identification and natural language description of the game play. Most existing LLM/LVLMs can explain generic sports activities, but lack sufficient domain-centric sports' jargon to create natural (human-like) descriptions. This work highlights the limitations of existing SoTA LLM/LVLMs for generating production-grade sports captions from images in a desired stylized format, and proposes a two-level fine-tuned LVLM pipeline to address that. The proposed pipeline yields an improvement > 8-10% in the F1, and > 2-10% in BERT score compared to alternative approaches. In addition, it has a small runtime memory footprint and fast execution time. During Super Bowl LIX the pipeline proved its practical application for live professional sports journalism; generating highly accurate and stylized captions at the rate of 6 images per 3-5 seconds for over 1000 images during the game play.
- Abstract(参考訳): 大規模(視覚的な)言語モデル(LLM/LVLM)の出現は、ソーシャルメディアコンテンツ生成、検索とレコメンデーション、医療予後、認知タスクのためのAIアシスタントなど、いくつかの領域において、自動化された人間のようなシステムが希薄化している。
これらのシステムは生産にうまく統合されているが、スポーツ、特に正確な識別とゲームプレイの自然言語記述にはほとんど焦点が当てられていない。
既存のLLM/LVLMのほとんどは、一般的なスポーツ活動を説明することができるが、自然(人間に似た)記述を作るのに十分なドメイン中心のスポーツのジャーゴンが不足している。
本研究は, 既存の SoTA LLM/LVLM が, 所望のスタイル化フォーマットで画像から, プロダクショングレードのスポーツキャプションを生成する際の限界を強調し, これに対処するための2レベル微調整 LVLM パイプラインを提案する。
提案したパイプラインは,F1では8-10%,BERTでは2-10%向上した。
さらに、実行時のメモリフットプリントが小さく、実行時間も速い。
スーパーボウルLIXの間、パイプラインはプロスポーツジャーナリズムの実践的な応用を証明し、ゲームプレイ中に1000枚以上の画像に対して3-5秒あたり6枚の割合で高精度でスタイリングされたキャプションを生成した。
関連論文リスト
- Do We Need Large VLMs for Spotting Soccer Actions? [4.334105740533729]
我々は、このビデオ中心のアプローチからテキストベースのタスクへのシフトを提案し、軽量でスケーラブルにする。
専門家のコメントには、マッチにおける重要なアクションを確実に見つけるのに十分な情報が含まれていると仮定する。
本実験は,この言語中心のアプローチが,臨界一致事象の検出に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:45:54Z) - Can Large Language Models Capture Video Game Engagement? [1.3873323883842132]
我々は、ビデオの連続的な影響アノテーションを注釈化し、うまく予測する一般的な大規模言語モデルの能力を包括的に評価する。
我々は, LLMアーキテクチャ, モデルサイズ, 入力モダリティ, プロンプト戦略, エンゲージメント予測に対する接地真理処理法の影響について, 2400以上の実験を行った。
論文 参考訳(メタデータ) (2025-02-05T17:14:47Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。