論文の概要: VGNMN: Video-grounded Neural Module Network to Video-Grounded Language
Tasks
- arxiv url: http://arxiv.org/abs/2104.07921v1
- Date: Fri, 16 Apr 2021 06:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 00:54:24.022896
- Title: VGNMN: Video-grounded Neural Module Network to Video-Grounded Language
Tasks
- Title(参考訳): VGNMN:ビデオグラウンド言語タスクのためのビデオグラウンドニューラルネットワーク
- Authors: Hung Le, Nancy F. Chen, Steven C.H. Hoi
- Abstract要約: VGNMN(Video-grounded Neural Module Network)を導入して,ビデオベース言語タスクにおける情報検索プロセスをモデル化する。
VGNMNはまずすべての言語コンポーネントを分解し、エンティティ参照を明示的に解決し、質問からアクションベースの入力を検出する。
- 参考スコア(独自算出の注目度): 73.04906599884868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural module networks (NMN) have achieved success in image-grounded tasks
such as Visual Question Answering (VQA) on synthetic images. However, very
limited work on NMN has been studied in the video-grounded language tasks.
These tasks extend the complexity of traditional visual tasks with the
additional visual temporal variance. Motivated by recent NMN approaches on
image-grounded tasks, we introduce Video-grounded Neural Module Network (VGNMN)
to model the information retrieval process in video-grounded language tasks as
a pipeline of neural modules. VGNMN first decomposes all language components to
explicitly resolve any entity references and detect corresponding action-based
inputs from the question. The detected entities and actions are used as
parameters to instantiate neural module networks and extract visual cues from
the video. Our experiments show that VGNMN can achieve promising performance on
two video-grounded language tasks: video QA and video-grounded dialogues.
- Abstract(参考訳): ニューラルモジュールネットワーク(NMN)は、合成画像における視覚質問応答(VQA)のような画像地上タスクで成功している。
しかし、ビデオグラウンド言語タスクにおいて、NMNに関する非常に限られた研究が研究されている。
これらのタスクは、視覚的な時間的ばらつきを加えることで、従来のビジュアルタスクの複雑さを拡張する。
近年のNMNによるイメージグラウンド型タスクへのアプローチにより,ビデオグラウンド型言語タスクにおける情報検索プロセスをニューラルモジュールのパイプラインとしてモデル化するビデオグラウンド型ニューラルモジュールネットワーク(VGNMN)を導入している。
VGNMNはまずすべての言語コンポーネントを分解し、エンティティ参照を明示的に解決し、質問から対応するアクションベースの入力を検出する。
検出されたエンティティとアクションは、ニューラルネットワークをインスタンス化し、ビデオから視覚的手がかりを抽出するパラメータとして使用される。
実験の結果,VGNMNは2つのビデオグラウンド言語タスク,すなわちビデオQAとビデオグラウンド言語対話において,有望な性能を達成できることがわかった。
関連論文リスト
- Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results
for Video Question Answering [42.173245795917026]
本稿では,ビデオ質問応答のための時空間推論モデルSTAIRを提案する。
STAIRは、与えられた質問を複数のサブタスクの階層的な組み合わせに分解するプログラムジェネレータを含むニューラルネットワークである。
我々は、STAIRのパフォーマンス、説明可能性、事前訓練されたモデルとの互換性、プログラムアノテーションが利用できない場合の適用性を示すために、いくつかのビデオ質問応答データセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-01-08T14:01:59Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Graph CNN for Moving Object Detection in Complex Environments from
Unseen Videos [13.530860337575637]
移動物体検出(MOD)は多くのコンピュータビジョンアプリケーションにとって基本的なステップである。
深層学習法は,MODと競争性能の両立に成功している。
本研究では,グラフ畳み込みニューラルネットワーク(GCNN)を用いたノード分類問題としてMODの問題を提起する。
論文 参考訳(メタデータ) (2022-07-13T18:00:12Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - Learning to Discretely Compose Reasoning Module Networks for Video
Captioning [81.81394228898591]
ビデオキャプションのための新しい視覚的推論手法であるReasoning Module Networks (RMN)を提案する。
RMNには3つの高度なRM時間的推論と,Gumbel近似を用いた言語的損失によって訓練された動的かつ離散的なモジュールセレクタが採用されている。
論文 参考訳(メタデータ) (2020-07-17T15:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。