論文の概要: Grounded Video Situation Recognition
- arxiv url: http://arxiv.org/abs/2210.10828v1
- Date: Wed, 19 Oct 2022 18:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:52:09.708632
- Title: Grounded Video Situation Recognition
- Title(参考訳): 地上映像の状況認識
- Authors: Zeeshan Khan, C.V. Jawahar, Makarand Tapaswi
- Abstract要約: 本稿では,3段階のトランスフォーマーモデルであるVideoWhispererについて紹介する。
我々のモデルは,一群のイベント(クリップ)で同時に動作し,動詞,動詞とロールのペア,名詞,接頭辞のオンザフライを予測します。
- 参考スコア(独自算出の注目度): 37.279915290069326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense video understanding requires answering several questions such as who is
doing what to whom, with what, how, why, and where. Recently, Video Situation
Recognition (VidSitu) is framed as a task for structured prediction of multiple
events, their relationships, and actions and various verb-role pairs attached
to descriptive entities. This task poses several challenges in identifying,
disambiguating, and co-referencing entities across multiple verb-role pairs,
but also faces some challenges of evaluation. In this work, we propose the
addition of spatio-temporal grounding as an essential component of the
structured prediction task in a weakly supervised setting, and present a novel
three stage Transformer model, VideoWhisperer, that is empowered to make joint
predictions. In stage one, we learn contextualised embeddings for video
features in parallel with key objects that appear in the video clips to enable
fine-grained spatio-temporal reasoning. The second stage sees verb-role queries
attend and pool information from object embeddings, localising answers to
questions posed about the action. The final stage generates these answers as
captions to describe each verb-role pair present in the video. Our model
operates on a group of events (clips) simultaneously and predicts verbs,
verb-role pairs, their nouns, and their grounding on-the-fly. When evaluated on
a grounding-augmented version of the VidSitu dataset, we observe a large
improvement in entity captioning accuracy, as well as the ability to localize
verb-roles without grounding annotations at training time.
- Abstract(参考訳): 複雑なビデオ理解には、誰が誰に何をしているか、どのように、なぜ、どこで何をしているのかなど、いくつかの質問に答える必要があります。
近年,ビデオ状況認識(VidSitu)は,複数の事象の構造化予測,その関連,行動,および説明的実体に付随する様々な動詞とロールのペアのタスクとして構成されている。
このタスクは複数の動詞とロールのペアをまたいだエンティティの識別、曖昧化、参照においていくつかの課題をもたらすが、評価の課題にも直面する。
本稿では,弱教師付き環境における構造化予測タスクの重要な構成要素として時空間グラウンドの追加を提案するとともに,共同予測を行うための3段階トランスフォーマーモデルであるVideoWhispererを提案する。
ステージ1では、ビデオ機能に対する文脈的埋め込みと、ビデオクリップに現れるキーオブジェクトとを並行して学習し、微細な時空間推論を可能にする。
第2ステージでは、動詞-ロールクエリが出席し、オブジェクト埋め込みから情報をプールし、アクションに関する質問に対する回答をローカライズする。
最終段階は、ビデオに現れる各動詞と単語のペアを記述するキャプションとしてこれらの回答を生成する。
我々のモデルは,一群のイベント(クリップ)で同時に動作し,動詞,動詞とロールのペア,名詞,接頭辞のオンザフライを予測する。
VidSituデータセットのグラウンド化バージョンで評価すると、エンティティキャプションの精度が大幅に向上し、トレーニング時にアノテーションをグラウンド化せずに動詞ロールをローカライズできるようになった。
関連論文リスト
- Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。