論文の概要: Deep soccer captioning with transformer: dataset, semantics-related
losses, and multi-level evaluation
- arxiv url: http://arxiv.org/abs/2202.05728v1
- Date: Fri, 11 Feb 2022 16:04:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 20:33:50.034347
- Title: Deep soccer captioning with transformer: dataset, semantics-related
losses, and multi-level evaluation
- Title(参考訳): トランスフォーマーを用いたディープサッカーキャプション:データセット、セマンティクス関連損失、マルチレベル評価
- Authors: Ahmad Hammoudeh, Bastein Vanderplaetse, St\'ephane Dupont
- Abstract要約: 本稿では,データセット,モデル,三段階評価を紹介する。
データセットは、EmphSoccerNetビデオ用の22k字幕クリップペアと3つの視覚的特徴(イメージ、光学フロー、塗装)で構成されている。
モデルは3つの部分に分けられる: トランスフォーマーは言語を学習し、ConvNetsは視覚を学習し、言語的特徴と視覚的特徴の融合はキャプションを生成する。
- 参考スコア(独自算出の注目度): 1.5293427903448025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work aims at generating captions for soccer videos using deep learning.
In this context, this paper introduces a dataset, model, and triple-level
evaluation. The dataset consists of 22k caption-clip pairs and three visual
features (images, optical flow, inpainting) for ~500 hours of \emph{SoccerNet}
videos. The model is divided into three parts: a transformer learns language,
ConvNets learn vision, and a fusion of linguistic and visual features generates
captions. The paper suggests evaluating generated captions at three levels:
syntax (the commonly used evaluation metrics such as BLEU-score and CIDEr),
meaning (the quality of descriptions for a domain expert), and corpus (the
diversity of generated captions). The paper shows that the diversity of
generated captions has improved (from 0.07 reaching 0.18) with
semantics-related losses that prioritize selected words. Semantics-related
losses and the utilization of more visual features (optical flow, inpainting)
improved the normalized captioning score by 28\%. The web page of this work:
https://sites.google.com/view/soccercaptioning}{https://sites.google.com/view/soccercaptioning
- Abstract(参考訳): 本研究の目的は,深層学習を用いたサッカービデオのキャプション生成である。
本稿では,データセット,モデル,トリプルレベル評価について述べる。
データセットは22k字幕クリップペアと3つの視覚的特徴(画像、光学的流れ、塗装)からなり、500時間分のビデオを再生する。
モデルは3つの部分に分けられる: トランスフォーマーは言語を学習し、ConvNetsは視覚を学習し、言語的特徴と視覚的特徴の融合はキャプションを生成する。
本稿では,構文(BLEUスコアやCIDErなどの一般的な評価指標),意味(ドメインの専門家による記述の質),コーパス(生成されたキャプションの多様性)の3つのレベルにおいて,生成されたキャプションを評価することを提案する。
論文は,選択された単語を優先する意味論的損失により,生成キャプションの多様性(0.07から0.18まで)が向上したことを示す。
意味的関連損失と視覚的特徴(光学的フロー, 塗布)の利用により, 正規化キャプションスコアは28。
https://sites.google.com/view/soccercaptioning}{https://sites.google.com/view/soccercaptioning
関連論文リスト
- TagAlign: Improving Vision-Language Alignment with Multi-Tag
Classification [61.61682423314142]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の選択肢よりも平均3.65%のフレームワークの改善を裏付けます。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - HL Dataset: Visually-grounded Description of Scenes, Actions and
Rationales [5.010418546872244]
我々はCOCOデータセットから14997の画像を拡張し、新たに134,973の人称注釈(ハイレベル)キャプションをセットしたデータセットを提示する。
さらに、このデータセットを、独立した読者の集合から収集した信頼度スコアと、合成的に生成されたナラティブキャプションのセットで拡張する。
論文 参考訳(メタデータ) (2023-02-23T17:30:18Z) - EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained
Embedding Matching [90.98122161162644]
現在のビデオキャプションの指標は、主に参照キャプションと候補キャプションのテキストレベルの比較に基づいている。
EMScore(Embedding Matching-based score)を提案する。
我々は、よく訓練された視覚言語モデルを用いて、EMScore 計算のための視覚的および言語的埋め込みを抽出する。
論文 参考訳(メタデータ) (2021-11-17T06:02:43Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Captioning Images Taken by People Who Are Blind [25.263950448575923]
VizWiz-Captionsは盲人から生まれた39,000以上の画像で構成されており、それぞれに5つのキャプションがある。
このデータセットを解析して,(1)典型的なキャプションを特徴付ける,(2)画像中のコンテンツの多様性を特徴付ける,(3)一般的な8つのビジョンデータセットと比較する。
論文 参考訳(メタデータ) (2020-02-20T04:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。