論文の概要: VGNMN: Video-grounded Neural Module Network to Video-Grounded Language
Tasks
- arxiv url: http://arxiv.org/abs/2104.07921v1
- Date: Fri, 16 Apr 2021 06:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 00:54:24.022896
- Title: VGNMN: Video-grounded Neural Module Network to Video-Grounded Language
Tasks
- Title(参考訳): VGNMN:ビデオグラウンド言語タスクのためのビデオグラウンドニューラルネットワーク
- Authors: Hung Le, Nancy F. Chen, Steven C.H. Hoi
- Abstract要約: VGNMN(Video-grounded Neural Module Network)を導入して,ビデオベース言語タスクにおける情報検索プロセスをモデル化する。
VGNMNはまずすべての言語コンポーネントを分解し、エンティティ参照を明示的に解決し、質問からアクションベースの入力を検出する。
- 参考スコア(独自算出の注目度): 73.04906599884868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural module networks (NMN) have achieved success in image-grounded tasks
such as Visual Question Answering (VQA) on synthetic images. However, very
limited work on NMN has been studied in the video-grounded language tasks.
These tasks extend the complexity of traditional visual tasks with the
additional visual temporal variance. Motivated by recent NMN approaches on
image-grounded tasks, we introduce Video-grounded Neural Module Network (VGNMN)
to model the information retrieval process in video-grounded language tasks as
a pipeline of neural modules. VGNMN first decomposes all language components to
explicitly resolve any entity references and detect corresponding action-based
inputs from the question. The detected entities and actions are used as
parameters to instantiate neural module networks and extract visual cues from
the video. Our experiments show that VGNMN can achieve promising performance on
two video-grounded language tasks: video QA and video-grounded dialogues.
- Abstract(参考訳): ニューラルモジュールネットワーク(NMN)は、合成画像における視覚質問応答(VQA)のような画像地上タスクで成功している。
しかし、ビデオグラウンド言語タスクにおいて、NMNに関する非常に限られた研究が研究されている。
これらのタスクは、視覚的な時間的ばらつきを加えることで、従来のビジュアルタスクの複雑さを拡張する。
近年のNMNによるイメージグラウンド型タスクへのアプローチにより,ビデオグラウンド型言語タスクにおける情報検索プロセスをニューラルモジュールのパイプラインとしてモデル化するビデオグラウンド型ニューラルモジュールネットワーク(VGNMN)を導入している。
VGNMNはまずすべての言語コンポーネントを分解し、エンティティ参照を明示的に解決し、質問から対応するアクションベースの入力を検出する。
検出されたエンティティとアクションは、ニューラルネットワークをインスタンス化し、ビデオから視覚的手がかりを抽出するパラメータとして使用される。
実験の結果,VGNMNは2つのビデオグラウンド言語タスク,すなわちビデオQAとビデオグラウンド言語対話において,有望な性能を達成できることがわかった。
関連論文リスト
- Momentor: Advancing Video Large Language Model with Fine-Grained
Temporal Reasoning [106.96340369164349]
本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。
Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
論文 参考訳(メタデータ) (2024-02-18T03:04:38Z) - STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results
for Video Question Answering [42.173245795917026]
本稿では,ビデオ質問応答のための時空間推論モデルSTAIRを提案する。
STAIRは、与えられた質問を複数のサブタスクの階層的な組み合わせに分解するプログラムジェネレータを含むニューラルネットワークである。
我々は、STAIRのパフォーマンス、説明可能性、事前訓練されたモデルとの互換性、プログラムアノテーションが利用できない場合の適用性を示すために、いくつかのビデオ質問応答データセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-01-08T14:01:59Z) - Contextual Object Detection with Multimodal Large Language Models [78.30374204127418]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Image Manipulation via Multi-Hop Instructions -- A New Dataset and
Weakly-Supervised Neuro-Symbolic Approach [31.380435286215757]
私たちは自然言語による画像操作に興味があります。
NeuroSIMと呼ばれるシステムでは,多目的シーン上で複雑なマルチホップ推論を行うことができる。
論文 参考訳(メタデータ) (2023-05-23T17:59:10Z) - Graph CNN for Moving Object Detection in Complex Environments from
Unseen Videos [13.530860337575637]
移動物体検出(MOD)は多くのコンピュータビジョンアプリケーションにとって基本的なステップである。
深層学習法は,MODと競争性能の両立に成功している。
本研究では,グラフ畳み込みニューラルネットワーク(GCNN)を用いたノード分類問題としてMODの問題を提起する。
論文 参考訳(メタデータ) (2022-07-13T18:00:12Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - Learning to Discretely Compose Reasoning Module Networks for Video
Captioning [81.81394228898591]
ビデオキャプションのための新しい視覚的推論手法であるReasoning Module Networks (RMN)を提案する。
RMNには3つの高度なRM時間的推論と,Gumbel近似を用いた言語的損失によって訓練された動的かつ離散的なモジュールセレクタが採用されている。
論文 参考訳(メタデータ) (2020-07-17T15:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。