論文の概要: Knowledge-Based Video Question Answering with Unsupervised Scene
Descriptions
- arxiv url: http://arxiv.org/abs/2007.08751v1
- Date: Fri, 17 Jul 2020 04:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 13:04:46.283909
- Title: Knowledge-Based Video Question Answering with Unsupervised Scene
Descriptions
- Title(参考訳): 教師なしシーン記述による知識に基づくビデオ質問応答
- Authors: Noa Garcia and Yuta Nakashima
- Abstract要約: 知識に基づくビデオストーリー質問応答モデルであるROLLを設計する。
ROLLでは,各タスクが,1)シーン対話処理,2)教師なし映像シーン記述生成,3)弱い教師付き方式で外部知識を取得することによって,リッチで多様な情報を抽出する役割を担っている。
与えられた質問に正しく答えるために、各インスパイアされた認知タスクによって生成された情報はトランスフォーマーを介して符号化され、モダリティ重み付け機構を介して融合される。
- 参考スコア(独自算出の注目度): 27.63022376316052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To understand movies, humans constantly reason over the dialogues and actions
shown in specific scenes and relate them to the overall storyline already seen.
Inspired by this behaviour, we design ROLL, a model for knowledge-based video
story question answering that leverages three crucial aspects of movie
understanding: dialog comprehension, scene reasoning, and storyline recalling.
In ROLL, each of these tasks is in charge of extracting rich and diverse
information by 1) processing scene dialogues, 2) generating unsupervised video
scene descriptions, and 3) obtaining external knowledge in a weakly supervised
fashion. To answer a given question correctly, the information generated by
each inspired-cognitive task is encoded via Transformers and fused through a
modality weighting mechanism, which balances the information from the different
sources. Exhaustive evaluation demonstrates the effectiveness of our approach,
which yields a new state-of-the-art on two challenging video question answering
datasets: KnowIT VQA and TVQA+.
- Abstract(参考訳): 映画を理解するために、人間は特定のシーンで示される対話やアクションを常に推論し、既に見られる全体的なストーリーラインと関連付ける。
この行動にインスパイアされたROLLは,映像理解の3つの重要な側面(対話理解,シーン推論,ストーリーラインリコール)を活用する知識に基づくビデオストーリー質問応答モデルである。
ROLLでは、これらのタスクはリッチで多様な情報を抽出する役割を担っている。
1)シーン対話の処理、
2)教師なしのビデオシーン記述の作成、及び
3) 外部知識を弱教師付きで取得すること。
与えられた質問に正しく答えるために、各インスパイア認知タスクによって生成された情報はトランスフォーマーを介してエンコードされ、異なるソースからの情報をバランスさせるモダリティ重み付け機構を介して融合される。
その結果,VQA と TVQA+ という2つの課題のビデオ質問応答データセットに対して,新たな最先端技術が得られた。
関連論文リスト
- SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog [83.63849872250651]
ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータで構成される反復探索・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - MoviePuzzle: Visual Narrative Reasoning through Multimodal Order
Learning [54.73173491543553]
MoviePuzzleは、ビジュアルな物語の推論と全体論的映画理解をターゲットとする、新しい挑戦である。
本研究では,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。
提案手法はMoviePuzzleベンチマークの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-06-04T03:51:54Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Saying the Unseen: Video Descriptions via Dialog Agents [37.16726118481626]
本稿では,2つのエージェント間の自然言語対話を用いたビデオ記述を目的とした新しいタスクを提案する。
Q-BOTは、ビデオの開始と終了から2つのセマンティックセグメンテーションフレームが与えられる。
ビデオ全体にアクセスする他のエージェントであるA-BOTは、Q-BOTが質問に答えることによってゴールを達成するのを支援する。
論文 参考訳(メタデータ) (2021-06-26T17:36:31Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - On the hidden treasure of dialog in video question answering [18.16094563534453]
外部ソースなしでストーリー全体を理解するための新しいアプローチを提示します。
従来の作業とは異なり、ダイアログをノイズの多いソースとして扱い、テキスト記述に変換する。
我々のモデルは、KnowIT VQAデータセットにおける技術状況よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2021-03-26T15:17:01Z) - Co-attentional Transformers for Story-Based Video Understanding [24.211255523490692]
本稿では,ドラマなどの視覚的物語に見られる長期的依存関係をよりよく捉えるための,新しいコアテンショナルトランスフォーマーモデルを提案する。
我々は、最近導入されたDramaQAデータセットに、文字中心のビデオストーリー理解質問を特徴付けるアプローチを評価した。
論文 参考訳(メタデータ) (2020-10-27T07:17:09Z) - DramaQA: Character-Centered Video Story Understanding with Hierarchical
QA [24.910132013543947]
本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。
我々のデータセットはテレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAが23,928の様々な長さのビデオクリップから作成されている。
我々は217,308個の注釈付き画像にリッチな文字中心のアノテーションを提供し、その中には視覚的バウンディングボックス、行動、メインキャラクタの感情が含まれる。
論文 参考訳(メタデータ) (2020-05-07T09:44:58Z) - Video2Commonsense: Generating Commonsense Descriptions to Enrich Video
Captioning [56.97139024595429]
人間のような活動的なエージェントを含むビデオでは、エージェントのアクションはシーンに無数の変化をもたらす可能性がある。
画像とは異なり、ビデオ内のアクションは、意図(なぜアクションが起こっているのか)、効果(アクションによる変化)、エージェントを記述する属性など、本質的に社会的側面と結びついている。
本稿では,ビデオから直接コモンセンスキャプションを生成し,意図,効果,属性などの潜在的な側面を説明する。
論文 参考訳(メタデータ) (2020-03-11T08:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。