論文の概要: MAD: A Scalable Dataset for Language Grounding in Videos from Movie
Audio Descriptions
- arxiv url: http://arxiv.org/abs/2112.00431v1
- Date: Wed, 1 Dec 2021 11:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 22:01:04.044842
- Title: MAD: A Scalable Dataset for Language Grounding in Videos from Movie
Audio Descriptions
- Title(参考訳): MAD:映画オーディオの解説ビデオにおける言語接地のためのスケーラブルなデータセット
- Authors: Mattia Soldan, Alejandro Pardo, Juan Le\'on Alc\'azar, Fabian Caba
Heilbron, Chen Zhao, Silvio Giancola, Bernard Ghanem
- Abstract要約: 我々は、既存のビデオデータセットをテキストアノテーションで拡張するパラダイムから外れた、新しいベンチマークであるMAD(Movie Audio Descriptions)を提示する。
MADには1200時間以上のビデオに接地された384,000以上の自然言語文が含まれており、現在診断されているビデオ言語接地データセットのバイアスが大幅に減少している。
- 参考スコア(独自算出の注目度): 109.84031235538002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent and increasing interest in video-language research has driven the
development of large-scale datasets that enable data-intensive machine learning
techniques. In comparison, limited effort has been made at assessing the
fitness of these datasets for the video-language grounding task. Recent works
have begun to discover significant limitations in these datasets, suggesting
that state-of-the-art techniques commonly overfit to hidden dataset biases. In
this work, we present MAD (Movie Audio Descriptions), a novel benchmark that
departs from the paradigm of augmenting existing video datasets with text
annotations and focuses on crawling and aligning available audio descriptions
of mainstream movies. MAD contains over 384,000 natural language sentences
grounded in over 1,200 hours of video and exhibits a significant reduction in
the currently diagnosed biases for video-language grounding datasets. MAD's
collection strategy enables a novel and more challenging version of
video-language grounding, where short temporal moments (typically seconds long)
must be accurately grounded in diverse long-form videos that can last up to
three hours.
- Abstract(参考訳): 近年、ビデオ言語研究への関心が高まり、データ集約型機械学習技術を実現する大規模なデータセットの開発が進められている。
対照的に、ビデオ言語接地作業におけるこれらのデータセットの適合性を評価するための努力は限られている。
最近の研究は、これらのデータセットの重大な制限を発見し始めており、最新技術は一般的に隠れたデータセットバイアスに過度に適合していることを示唆している。
そこで本研究では,既存のビデオデータセットをテキストアノテーションで拡張するパラダイムから外れた新しいベンチマークであるMAD(Movie Audio Descriptions)を紹介する。
MADには1200時間以上のビデオに接地された384,000以上の自然言語文が含まれており、現在診断されているビデオ言語接地データセットのバイアスが大幅に減少している。
MADの収集戦略は、短い時間モーメント(典型的には数秒)を、最大3時間までの様々な長大なビデオで正確にグラウンド化しなければならない、新しい、より困難なビデオ言語グラウンド化を可能にする。
関連論文リスト
- Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。
既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。
本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:27:56Z) - SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding [19.544839928488972]
我々はM-SYMON(Multilingual Synopses of Movie Narratives)という大規模多言語ビデオストーリーデータセットを構築した。
M-SYMONには、7つの言語からの13,166本の映画要約ビデオと、101.5時間のビデオの詳細なビデオテキスト対応のマニュアルアノテーションが含まれている。
SyMoNからの注釈付きデータのトレーニングは、Clip AccuracyとSentence IoUのスコアでそれぞれ15.7と16.2でSOTA法を上回ります。
論文 参考訳(メタデータ) (2024-06-18T22:44:50Z) - VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z) - FSVVD: A Dataset of Full Scene Volumetric Video [2.9151420469958533]
本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、フルシーンのボリュームビデオデータセットを初めてリリースする。
包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。
論文 参考訳(メタデータ) (2023-03-07T02:31:08Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。