論文の概要: iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video
Captioning and Video Question Answering
- arxiv url: http://arxiv.org/abs/2011.07735v1
- Date: Mon, 16 Nov 2020 05:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 23:31:37.703886
- Title: iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video
Captioning and Video Question Answering
- Title(参考訳): iPerceive:マルチモードビデオキャプチャとビデオ質問応答に常識推論を適用する
- Authors: Aman Chadha, Gurneet Arora, Navpreet Kaloty
- Abstract要約: ビデオ内のイベント間の"なぜ"を理解することができるフレームワークであるiPerを提案する。
機械翻訳問題としてのiPerceiveとVideoQAの有効性を示す。
我々のアプローチは、視覚的理解の最先端をさらに進める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most prior art in visual understanding relies solely on analyzing the "what"
(e.g., event recognition) and "where" (e.g., event localization), which in some
cases, fails to describe correct contextual relationships between events or
leads to incorrect underlying visual attention. Part of what defines us as
human and fundamentally different from machines is our instinct to seek
causality behind any association, say an event Y that happened as a direct
result of event X. To this end, we propose iPerceive, a framework capable of
understanding the "why" between events in a video by building a common-sense
knowledge base using contextual cues to infer causal relationships between
objects in the video. We demonstrate the effectiveness of our technique using
the dense video captioning (DVC) and video question answering (VideoQA) tasks.
Furthermore, while most prior work in DVC and VideoQA relies solely on visual
information, other modalities such as audio and speech are vital for a human
observer's perception of an environment. We formulate DVC and VideoQA tasks as
machine translation problems that utilize multiple modalities. By evaluating
the performance of iPerceive DVC and iPerceive VideoQA on the ActivityNet
Captions and TVQA datasets respectively, we show that our approach furthers the
state-of-the-art. Code and samples are available at: iperceive.amanchadha.com.
- Abstract(参考訳): 視覚的理解におけるほとんどの先行技術は、「何」(例えば、イベント認識)と「どこで」(例えば、イベントローカライゼーション)の分析にのみ依存している。
例えば、イベントXの直接的な結果として発生したイベントY。この目的のために、ビデオ内のオブジェクト間の因果関係を推論するために、コンテクスト的な手がかりを用いて、ビデオ内のイベント間の"なぜ"を理解することができるフレームワークiPerceiveを提案する。
本稿では,ビデオキャプション(DVC)とビデオ質問応答(ビデオQA)を用いた手法の有効性を示す。
さらに,DVC や VideoQA における先行研究のほとんどは視覚情報のみに依存しているのに対して,音声や音声などの他のモダリティは,人間の観察者の環境に対する認識に不可欠である。
複数のモードを利用する機械翻訳問題としてDVCおよびビデオQAタスクを定式化する。
また,iPerceive DVC と iPerceive VideoQA のActivityNet Captions と TVQA のデータセット上での性能を評価することにより,本手法が最先端技術をさらに向上させることを示す。
コードとサンプルは、 iperceive.amanchadha.comで入手できる。
関連論文リスト
- Glance and Focus: Memory Prompting for Multi-Event Video Question
Answering [36.00733800536469]
VideoQAは、人間の日常行動を理解するエージェントの能力を評価する重要なツールとして登場した。
人間は一連のエピソード記憶をアンカーとして使い、推論のための質問に関連する重要な瞬間を素早く見つけることで、簡単に対処できる。
この効果的な推論戦略を模倣するGlance-Focusモデルを提案する。
論文 参考訳(メタデータ) (2024-01-03T03:51:16Z) - Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols [53.706461356853445]
アントリムされたビデオには、関連のあるイベント、依存関係、コンテキスト、重複するイベント、オブジェクトとオブジェクトのインタラクション、ドメインの特異性、その他の説明に値するセマンティクスがある。
ビデオキャプション(DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
論文 参考訳(メタデータ) (2023-11-05T01:45:31Z) - Semantic-aware Dynamic Retrospective-Prospective Reasoning for
Event-level Video Question Answering [14.659023742381777]
Event-Level Video Question Answering (EVQA)は、最適な回答を提供するために、ビデオイベント間の複雑な推論を必要とする。
本稿では,映像に基づく質問応答のための意味認識動的ふりかえり推論手法を提案する。
提案手法は,従来の最先端モデルと比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-14T03:57:11Z) - Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文 参考訳(メタデータ) (2023-05-07T09:05:19Z) - A Review of Deep Learning for Video Captioning [111.1557921247882]
ビデオキャプション(VC)は、素早く動き、学際的な研究分野である。
この調査では、注目に基づくアーキテクチャ、グラフネットワーク、強化学習、敵対的ネットワーク、高密度ビデオキャプション(DVC)など、ディープラーニングベースのVCをカバーする。
論文 参考訳(メタデータ) (2023-04-22T15:30:54Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z) - Video2Commonsense: Generating Commonsense Descriptions to Enrich Video
Captioning [56.97139024595429]
人間のような活動的なエージェントを含むビデオでは、エージェントのアクションはシーンに無数の変化をもたらす可能性がある。
画像とは異なり、ビデオ内のアクションは、意図(なぜアクションが起こっているのか)、効果(アクションによる変化)、エージェントを記述する属性など、本質的に社会的側面と結びついている。
本稿では,ビデオから直接コモンセンスキャプションを生成し,意図,効果,属性などの潜在的な側面を説明する。
論文 参考訳(メタデータ) (2020-03-11T08:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。