Fugu-MT 論文翻訳(概要): Annotation Cleaning for the MSR-Video to Text Dataset

論文の概要: Annotation Cleaning for the MSR-Video to Text Dataset

arxiv url: http://arxiv.org/abs/2102.06448v1
Date: Fri, 12 Feb 2021 11:14:56 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-15 13:18:23.007760
Title: Annotation Cleaning for the MSR-Video to Text Dataset
Title（参考訳）: MSR-Video to Textデータセットのアノテーションクリーニング
Authors: Haoran Chen, Jianmin Li, Simone Frintrop, Xiaolin Hu
Abstract要約: これらの問題を除去してMSR-VTTアノテーションをクリーン化し、クリーン化したデータセット上でいくつかの典型的なビデオキャプションモデルをテストした。人間の行動実験では、クリーン化されたデータセットに基づいてトレーニングされたモデルが、ビデオクリップの内容により一貫性があり、より関連性の高いキャプションを生成した。
参考スコア（独自算出の注目度）: 21.63860741797234
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The video captioning task is to describe the video contents with natural language by the machine. Many methods have been proposed for solving this task. A large dataset called MSR Video to Text (MSR-VTT) is often used as the benckmark dataset for testing the performance of the methods. However, we found that the human annotations, i.e., the descriptions of video contents in the dataset are quite noisy, e.g., there are many duplicate captions and many captions contain grammatical problems. These problems may pose difficulties to video captioning models for learning. We cleaned the MSR-VTT annotations by removing these problems, then tested several typical video captioning models on the cleaned dataset. Experimental results showed that data cleaning boosted the performances of the models measured by popular quantitative metrics. We recruited subjects to evaluate the results of a model trained on the original and cleaned datasets. The human behavior experiment demonstrated that trained on the cleaned dataset, the model generated captions that were more coherent and more relevant to contents of the video clips. The cleaned dataset is publicly available.
Abstract（参考訳）: ビデオキャプションタスクは、機械によって自然言語でビデオコンテンツを記述することです。この課題を解決するための多くの方法が提案されている。 MSR Video to Text(MSR-VTT)と呼ばれる大きなデータセットは、メソッドのパフォーマンスをテストするためのベックマークデータセットとしてよく使用されます。しかし、人間のアノテーション、すなわちデータセット内のビデオ内容の記述は非常に騒々しいこと、例えば、重複キャプションが多数あり、多くのキャプションが文法的な問題を含んでいることを発見した。これらの問題は、学習のためのビデオキャプションモデルに困難をもたらす可能性がある。これらの問題を除去してMSR-VTTアノテーションをクリーン化し、クリーン化したデータセット上でいくつかの典型的なビデオキャプションモデルをテストした。実験の結果,データクリーニングにより,一般的な定量的指標によって測定されたモデルの性能が向上した。被験者を募集して,オリジナルデータセットとクリーンデータセットでトレーニングしたモデルの結果を評価した。 human behavior experimentは、クリーンなデータセットでトレーニングされたモデルが、ビデオクリップの内容に対してより一貫性があり、より関連のあるキャプションを生成することを実証した。クリーンなデータセットが公開されている。

関連論文リスト

Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文参考訳（メタデータ） (2024-11-12T06:44:24Z)
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation [9.726156628112198]
テキスト・ビデオ・モデルのための優れたトレーニングデータセットであるVidGen-1Mを提案する。このデータセットは、高品質なビデオと、時間的一貫性に優れた詳細なキャプションを保証する。ビデオ生成モデルをトレーニングするために使用すると、このデータセットは、他のモデルで得られたものを上回る実験結果をもたらす。
論文参考訳（メタデータ） (2024-08-05T16:53:23Z)
RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文参考訳（メタデータ） (2024-05-11T16:22:00Z)
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers [93.65253661843145]
高品質なキャプションを持つビデオデータセットを自動構築する手法を提案する。具体的には、公開されているHD-VILA-100Mデータセットから3.8Mの高解像度ビデオをキュレートする。次に、複数のモダリティの教師モデルを適用して、各ビデオのキャプションを取得する。こうして、高品質なテキストキャプションと、7000万のビデオが組み合わされる。
論文参考訳（メタデータ） (2024-02-29T18:59:50Z)
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文参考訳（メタデータ） (2023-10-07T19:32:55Z)
Scalable and Accurate Self-supervised Multimodal Representation Learning without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文参考訳（メタデータ） (2023-04-04T19:11:05Z)
CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文参考訳（メタデータ） (2021-10-13T10:17:06Z)
QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。 YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文参考訳（メタデータ） (2020-11-22T17:33:44Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)
Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文参考訳（メタデータ） (2020-06-12T14:07:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。