論文の概要: Co-attentional Transformers for Story-Based Video Understanding
- arxiv url: http://arxiv.org/abs/2010.14104v1
- Date: Tue, 27 Oct 2020 07:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 10:55:35.600295
- Title: Co-attentional Transformers for Story-Based Video Understanding
- Title(参考訳): ストーリーベースビデオ理解のためのコアテンショントランスフォーマ
- Authors: Bj\"orn Bebensee, Byoung-Tak Zhang
- Abstract要約: 本稿では,ドラマなどの視覚的物語に見られる長期的依存関係をよりよく捉えるための,新しいコアテンショナルトランスフォーマーモデルを提案する。
我々は、最近導入されたDramaQAデータセットに、文字中心のビデオストーリー理解質問を特徴付けるアプローチを評価した。
- 参考スコア(独自算出の注目度): 24.211255523490692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by recent trends in vision and language learning, we explore
applications of attention mechanisms for visio-lingual fusion within an
application to story-based video understanding. Like other video-based QA
tasks, video story understanding requires agents to grasp complex temporal
dependencies. However, as it focuses on the narrative aspect of video it also
requires understanding of the interactions between different characters, as
well as their actions and their motivations. We propose a novel co-attentional
transformer model to better capture long-term dependencies seen in visual
stories such as dramas and measure its performance on the video question
answering task. We evaluate our approach on the recently introduced DramaQA
dataset which features character-centered video story understanding questions.
Our model outperforms the baseline model by 8 percentage points overall, at
least 4.95 and up to 12.8 percentage points on all difficulty levels and
manages to beat the winner of the DramaQA challenge.
- Abstract(参考訳): 近年の視覚と言語学習の傾向に触発されて、ストーリーベースの映像理解へのアプリケーション内における視覚・言語融合の注意機構の適用について検討する。
他のビデオベースのQAタスクと同様に、ビデオストーリーの理解には複雑な時間的依存関係を理解する必要がある。
しかし、ビデオの物語的な側面に焦点を当てているため、異なるキャラクター間の相互作用の理解や、彼らの行動や動機の理解も必要である。
本稿では,演劇などの視覚的物語に見られる長期的依存関係をよりよく把握し,映像質問応答タスクにおいてその性能を計測する,新しいコアテンショナルトランスフォーマーモデルを提案する。
我々は、最近導入されたDramaQAデータセットに、文字中心のビデオストーリー理解質問を特徴付けるアプローチを評価した。
我々のモデルは、ベースラインモデル全体の8ポイント、少なくとも4.95ポイント、すべての難易度レベルで12.8ポイントを上回り、a dramaqaチャレンジの勝者を打ち負かした。
関連論文リスト
- Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Long Story Short: a Summarize-then-Search Method for Long Video Question
Answering [23.094728230459125]
言語モデルがマルチメディアコンテンツの長大なマルチモーダル物語にゼロショット推論能力を拡張できるかどうかを検討する。
本稿では,まずビデオの物語を短いプロットに要約し,質問に関連するビデオの一部を検索する,物語ビデオQAのためのフレームワークであるLong Story Shortを提案する。
我々のモデルは最先端の教師付きモデルよりも大きなマージンで優れており、ロングビデオにおけるゼロショットQAの可能性を強調している。
論文 参考訳(メタデータ) (2023-11-02T13:36:11Z) - FunQA: Towards Surprising Video Comprehension [64.58663825184958]
本稿では,挑戦的なビデオ質問応答データセットであるFunQAを紹介する。
FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。
FunQAベンチマークは4.3Kビデオクリップから派生した312KのフリーテキストQAペアで構成されている。
論文 参考訳(メタデータ) (2023-06-26T17:59:55Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory [92.98552727430483]
Narrations-as-Queries (NaQ)は、標準的なビデオテキストナレーションをビデオクエリのローカライゼーションモデルのためのトレーニングデータに変換するデータ拡張戦略である。
NaQが複数のトップモデルを大幅に改善(精度を2倍に)
また、ゼロショットおよび少数ショットNLQの実行能力や、ロングテールオブジェクトカテゴリに関するクエリのパフォーマンス向上など、このアプローチのユニークな特性も示す。
論文 参考訳(メタデータ) (2023-01-02T16:40:15Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Character Matters: Video Story Understanding with Character-Aware
Relations [47.69347058141917]
ビデオストーリー質問回答(VSQA)は、モデルのより高度な理解能力をベンチマークする効果的な方法を提供する。
現在のVSQAメソッドは、単にシーンから一般的な視覚的特徴を抽出するだけである。
本稿では,文字認識関係を改良する新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-05-09T06:51:13Z) - DramaQA: Character-Centered Video Story Understanding with Hierarchical
QA [24.910132013543947]
本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。
我々のデータセットはテレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAが23,928の様々な長さのビデオクリップから作成されている。
我々は217,308個の注釈付き画像にリッチな文字中心のアノテーションを提供し、その中には視覚的バウンディングボックス、行動、メインキャラクタの感情が含まれる。
論文 参考訳(メタデータ) (2020-05-07T09:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。