論文の概要: Annotation Cleaning for the MSR-Video to Text Dataset
- arxiv url: http://arxiv.org/abs/2102.06448v1
- Date: Fri, 12 Feb 2021 11:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:18:23.007760
- Title: Annotation Cleaning for the MSR-Video to Text Dataset
- Title(参考訳): MSR-Video to Textデータセットのアノテーションクリーニング
- Authors: Haoran Chen, Jianmin Li, Simone Frintrop, Xiaolin Hu
- Abstract要約: これらの問題を除去してMSR-VTTアノテーションをクリーン化し、クリーン化したデータセット上でいくつかの典型的なビデオキャプションモデルをテストした。
人間の行動実験では、クリーン化されたデータセットに基づいてトレーニングされたモデルが、ビデオクリップの内容により一貫性があり、より関連性の高いキャプションを生成した。
- 参考スコア(独自算出の注目度): 21.63860741797234
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The video captioning task is to describe the video contents with natural
language by the machine. Many methods have been proposed for solving this task.
A large dataset called MSR Video to Text (MSR-VTT) is often used as the
benckmark dataset for testing the performance of the methods. However, we found
that the human annotations, i.e., the descriptions of video contents in the
dataset are quite noisy, e.g., there are many duplicate captions and many
captions contain grammatical problems. These problems may pose difficulties to
video captioning models for learning. We cleaned the MSR-VTT annotations by
removing these problems, then tested several typical video captioning models on
the cleaned dataset. Experimental results showed that data cleaning boosted the
performances of the models measured by popular quantitative metrics. We
recruited subjects to evaluate the results of a model trained on the original
and cleaned datasets. The human behavior experiment demonstrated that trained
on the cleaned dataset, the model generated captions that were more coherent
and more relevant to contents of the video clips. The cleaned dataset is
publicly available.
- Abstract(参考訳): ビデオキャプションタスクは、機械によって自然言語でビデオコンテンツを記述することです。
この課題を解決するための多くの方法が提案されている。
MSR Video to Text(MSR-VTT)と呼ばれる大きなデータセットは、メソッドのパフォーマンスをテストするためのベックマークデータセットとしてよく使用されます。
しかし、人間のアノテーション、すなわちデータセット内のビデオ内容の記述は非常に騒々しいこと、例えば、重複キャプションが多数あり、多くのキャプションが文法的な問題を含んでいることを発見した。
これらの問題は、学習のためのビデオキャプションモデルに困難をもたらす可能性がある。
これらの問題を除去してMSR-VTTアノテーションをクリーン化し、クリーン化したデータセット上でいくつかの典型的なビデオキャプションモデルをテストした。
実験の結果,データクリーニングにより,一般的な定量的指標によって測定されたモデルの性能が向上した。
被験者を募集して,オリジナルデータセットとクリーンデータセットでトレーニングしたモデルの結果を評価した。
human behavior experimentは、クリーンなデータセットでトレーニングされたモデルが、ビデオクリップの内容に対してより一貫性があり、より関連のあるキャプションを生成することを実証した。
クリーンなデータセットが公開されている。
関連論文リスト
- Fine-grained Video-Text Retrieval: A New Benchmark and Method [25.2967056489715]
FIBERは,FineActionデータセットから生成した1,000本のビデオを含むビデオ検索に,テキスト用の微細なbenchmarkである。
FIBERベンチマークでは,ビデオ毎の詳細な空間アノテーションと時間アノテーションが提供されている。
実験の結果,従来のベンチマークにおいて,ビデオ大言語(VLLE)はCLIPベースのモデルと相容れない性能を示した。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。
このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。
本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-11-12T06:44:24Z) - VidGen-1M: A Large-Scale Dataset for Text-to-video Generation [9.726156628112198]
テキスト・ビデオ・モデルのための優れたトレーニングデータセットであるVidGen-1Mを提案する。
このデータセットは、高品質なビデオと、時間的一貫性に優れた詳細なキャプションを保証する。
ビデオ生成モデルをトレーニングするために使用すると、このデータセットは、他のモデルで得られたものを上回る実験結果をもたらす。
論文 参考訳(メタデータ) (2024-08-05T16:53:23Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers [93.65253661843145]
高品質なキャプションを持つビデオデータセットを自動構築する手法を提案する。
具体的には、公開されているHD-VILA-100Mデータセットから3.8Mの高解像度ビデオをキュレートする。
次に、複数のモダリティの教師モデルを適用して、各ビデオのキャプションを取得する。
こうして、高品質なテキストキャプションと、7000万のビデオが組み合わされる。
論文 参考訳(メタデータ) (2024-02-29T18:59:50Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。