論文の概要: iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video
Captioning and Video Question Answering
- arxiv url: http://arxiv.org/abs/2011.07735v1
- Date: Mon, 16 Nov 2020 05:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 23:31:37.703886
- Title: iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video
Captioning and Video Question Answering
- Title(参考訳): iPerceive:マルチモードビデオキャプチャとビデオ質問応答に常識推論を適用する
- Authors: Aman Chadha, Gurneet Arora, Navpreet Kaloty
- Abstract要約: ビデオ内のイベント間の"なぜ"を理解することができるフレームワークであるiPerを提案する。
機械翻訳問題としてのiPerceiveとVideoQAの有効性を示す。
我々のアプローチは、視覚的理解の最先端をさらに進める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most prior art in visual understanding relies solely on analyzing the "what"
(e.g., event recognition) and "where" (e.g., event localization), which in some
cases, fails to describe correct contextual relationships between events or
leads to incorrect underlying visual attention. Part of what defines us as
human and fundamentally different from machines is our instinct to seek
causality behind any association, say an event Y that happened as a direct
result of event X. To this end, we propose iPerceive, a framework capable of
understanding the "why" between events in a video by building a common-sense
knowledge base using contextual cues to infer causal relationships between
objects in the video. We demonstrate the effectiveness of our technique using
the dense video captioning (DVC) and video question answering (VideoQA) tasks.
Furthermore, while most prior work in DVC and VideoQA relies solely on visual
information, other modalities such as audio and speech are vital for a human
observer's perception of an environment. We formulate DVC and VideoQA tasks as
machine translation problems that utilize multiple modalities. By evaluating
the performance of iPerceive DVC and iPerceive VideoQA on the ActivityNet
Captions and TVQA datasets respectively, we show that our approach furthers the
state-of-the-art. Code and samples are available at: iperceive.amanchadha.com.
- Abstract(参考訳): 視覚的理解におけるほとんどの先行技術は、「何」(例えば、イベント認識)と「どこで」(例えば、イベントローカライゼーション)の分析にのみ依存している。
例えば、イベントXの直接的な結果として発生したイベントY。この目的のために、ビデオ内のオブジェクト間の因果関係を推論するために、コンテクスト的な手がかりを用いて、ビデオ内のイベント間の"なぜ"を理解することができるフレームワークiPerceiveを提案する。
本稿では,ビデオキャプション(DVC)とビデオ質問応答(ビデオQA)を用いた手法の有効性を示す。
さらに,DVC や VideoQA における先行研究のほとんどは視覚情報のみに依存しているのに対して,音声や音声などの他のモダリティは,人間の観察者の環境に対する認識に不可欠である。
複数のモードを利用する機械翻訳問題としてDVCおよびビデオQAタスクを定式化する。
また,iPerceive DVC と iPerceive VideoQA のActivityNet Captions と TVQA のデータセット上での性能を評価することにより,本手法が最先端技術をさらに向上させることを示す。
コードとサンプルは、 iperceive.amanchadha.comで入手できる。
関連論文リスト
- SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model [35.60147467774199]
SAV-SEは、同期ビデオからのリッチな文脈情報を、ノイズの種類を示す補助的手がかりとして使うための最初の提案である。
我々の知る限り、これは、音声強調性能を向上させるために、同期ビデオからリッチな文脈情報を補助的手がかりとして使用する最初の提案である。
論文 参考訳(メタデータ) (2024-11-12T12:23:41Z) - EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - A Survey of Video Datasets for Grounded Event Understanding [34.11140286628736]
マルチモーダルAIシステムは、人間の視覚的理解に似た、よく取り囲まれた常識推論能力を持つ必要があります。
イベント理解機能を必要とする105の動画データセットを調査した。
論文 参考訳(メタデータ) (2024-06-14T00:36:55Z) - Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols [53.706461356853445]
アントリムされたビデオには、関連のあるイベント、依存関係、コンテキスト、重複するイベント、オブジェクトとオブジェクトのインタラクション、ドメインの特異性、その他の説明に値するセマンティクスがある。
ビデオキャプション(DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
論文 参考訳(メタデータ) (2023-11-05T01:45:31Z) - Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文 参考訳(メタデータ) (2023-05-07T09:05:19Z) - A Review of Deep Learning for Video Captioning [111.1557921247882]
ビデオキャプション(VC)は、素早く動き、学際的な研究分野である。
この調査では、注目に基づくアーキテクチャ、グラフネットワーク、強化学習、敵対的ネットワーク、高密度ビデオキャプション(DVC)など、ディープラーニングベースのVCをカバーする。
論文 参考訳(メタデータ) (2023-04-22T15:30:54Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z) - Video2Commonsense: Generating Commonsense Descriptions to Enrich Video
Captioning [56.97139024595429]
人間のような活動的なエージェントを含むビデオでは、エージェントのアクションはシーンに無数の変化をもたらす可能性がある。
画像とは異なり、ビデオ内のアクションは、意図(なぜアクションが起こっているのか)、効果(アクションによる変化)、エージェントを記述する属性など、本質的に社会的側面と結びついている。
本稿では,ビデオから直接コモンセンスキャプションを生成し,意図,効果,属性などの潜在的な側面を説明する。
論文 参考訳(メタデータ) (2020-03-11T08:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。