論文の概要: Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions
- arxiv url: http://arxiv.org/abs/2105.04489v1
- Date: Mon, 10 May 2021 16:30:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:22:39.439095
- Title: Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions
- Title(参考訳): Spoken Moments:ビデオ記述から共同視覚表現を学習する
- Authors: Mathew Monfort, SouYoung Jin, Alexander Liu, David Harwath, Rogerio
Feris, James Glass, Aude Oliva
- Abstract要約: 我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
- 参考スコア(独自算出の注目度): 75.77044856100349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When people observe events, they are able to abstract key information and
build concise summaries of what is happening. These summaries include
contextual and semantic information describing the important high-level details
(what, where, who and how) of the observed event and exclude background
information that is deemed unimportant to the observer. With this in mind, the
descriptions people generate for videos of different dynamic events can greatly
improve our understanding of the key information of interest in each video.
These descriptions can be captured in captions that provide expanded attributes
for video labeling (e.g. actions/objects/scenes/sentiment/etc.) while allowing
us to gain new insight into what people find important or necessary to
summarize specific events. Existing caption datasets for video understanding
are either small in scale or restricted to a specific domain. To address this,
we present the Spoken Moments (S-MiT) dataset of 500k spoken captions each
attributed to a unique short video depicting a broad range of different events.
We collect our descriptions using audio recordings to ensure that they remain
as natural and concise as possible while allowing us to scale the size of a
large classification dataset. In order to utilize our proposed dataset, we
present a novel Adaptive Mean Margin (AMM) approach to contrastive learning and
evaluate our models on video/caption retrieval on multiple datasets. We show
that our AMM approach consistently improves our results and that models trained
on our Spoken Moments dataset generalize better than those trained on other
video-caption datasets.
- Abstract(参考訳): イベントを観察すると、重要な情報を抽象化し、何が起きているのかを簡潔に要約することができる。
これらの要約には、観察された事象の重要なハイレベルな詳細(どこで、どこで、どのように)を記述した文脈的および意味的情報が含まれ、観察者にとって重要でないと思われる背景情報を排除する。
このことを念頭に置いて、異なるダイナミックイベントのビデオに対して人々が生成する記述は、各ビデオに対する重要な情報に対する理解を大幅に改善する。
これらの記述は、ビデオラベリングのための拡張属性を提供するキャプションでキャプチャできる(例)。
action/objects/scenes/sentiment/etc.)
特定のイベントをまとめるために何が重要か、必要なのか、新たな洞察を得ることができます。
既存のビデオ理解用キャプションデータセットは、スケールが小さいか、特定のドメインに限定されている。
そこで本稿では,500kの音声キャプションからなるSpoken Moments(S-MiT)データセットについて述べる。
音声記録を用いて記述を収集し、それらが可能な限り自然で簡潔でありながら、大規模な分類データセットのサイズをスケールできるようにする。
提案するデータセットを活用するために,コントラスト学習のための新しい適応平均マージン(amm)アプローチを提案し,複数のデータセットにおける映像/キャプチャ検索に関するモデルを評価する。
我々のAMMアプローチは、我々の結果を継続的に改善し、Spken Momentsデータセットでトレーニングされたモデルは、他のビデオキャプチャデータセットでトレーニングされたモデルよりも一般化されていることを示す。
関連論文リスト
- Enhancing Long Video Understanding via Hierarchical Event-Based Memory [9.800516656566774]
本稿では,長いビデオの理解を深めるため,階層型イベントベースメモリ拡張LDM(HEM-LLM)を提案する。
まず,複数のイベントを長いビデオ内に分割する適応シーケンスセグメンテーション方式を設計する。
第2に、現在のイベントをモデル化しながら、ビデオ内の長期的相互依存関係を強化するために、前回のイベントに関する情報を圧縮し、注入する。
論文 参考訳(メタデータ) (2024-09-10T07:53:10Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。