Fugu-MT 論文翻訳(概要): VGNMN: Video-grounded Neural Module Network to Video-Grounded Language Tasks

論文の概要: VGNMN: Video-grounded Neural Module Network to Video-Grounded Language Tasks

arxiv url: http://arxiv.org/abs/2104.07921v1
Date: Fri, 16 Apr 2021 06:47:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-20 00:54:24.022896
Title: VGNMN: Video-grounded Neural Module Network to Video-Grounded Language Tasks
Title（参考訳）: VGNMN:ビデオグラウンド言語タスクのためのビデオグラウンドニューラルネットワーク
Authors: Hung Le, Nancy F. Chen, Steven C.H. Hoi
Abstract要約: VGNMN(Video-grounded Neural Module Network)を導入して,ビデオベース言語タスクにおける情報検索プロセスをモデル化する。 VGNMNはまずすべての言語コンポーネントを分解し、エンティティ参照を明示的に解決し、質問からアクションベースの入力を検出する。
参考スコア（独自算出の注目度）: 73.04906599884868
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural module networks (NMN) have achieved success in image-grounded tasks such as Visual Question Answering (VQA) on synthetic images. However, very limited work on NMN has been studied in the video-grounded language tasks. These tasks extend the complexity of traditional visual tasks with the additional visual temporal variance. Motivated by recent NMN approaches on image-grounded tasks, we introduce Video-grounded Neural Module Network (VGNMN) to model the information retrieval process in video-grounded language tasks as a pipeline of neural modules. VGNMN first decomposes all language components to explicitly resolve any entity references and detect corresponding action-based inputs from the question. The detected entities and actions are used as parameters to instantiate neural module networks and extract visual cues from the video. Our experiments show that VGNMN can achieve promising performance on two video-grounded language tasks: video QA and video-grounded dialogues.
Abstract（参考訳）: ニューラルモジュールネットワーク(NMN)は、合成画像における視覚質問応答(VQA)のような画像地上タスクで成功している。しかし、ビデオグラウンド言語タスクにおいて、NMNに関する非常に限られた研究が研究されている。これらのタスクは、視覚的な時間的ばらつきを加えることで、従来のビジュアルタスクの複雑さを拡張する。近年のNMNによるイメージグラウンド型タスクへのアプローチにより,ビデオグラウンド型言語タスクにおける情報検索プロセスをニューラルモジュールのパイプラインとしてモデル化するビデオグラウンド型ニューラルモジュールネットワーク(VGNMN)を導入している。 VGNMNはまずすべての言語コンポーネントを分解し、エンティティ参照を明示的に解決し、質問から対応するアクションベースの入力を検出する。検出されたエンティティとアクションは、ニューラルネットワークをインスタンス化し、ビデオから視覚的手がかりを抽出するパラメータとして使用される。実験の結果,VGNMNは2つのビデオグラウンド言語タスク,すなわちビデオQAとビデオグラウンド言語対話において,有望な性能を達成できることがわかった。

関連論文リスト

ViSpeak: Visual Instruction Feedback in Streaming Videos [50.99067964073338]
本稿では,視覚的インストラクションフィードバック(Visual Instruction Feedback)という新しいタスクを提案する。我々は,様々なストリーミングビデオ理解ベンチマークにおいて,GPT-4oレベルの性能を持つSOTAストリーミングビデオ理解LMMであるViSpeakモデルを提案する。
論文参考訳（メタデータ） (2025-03-17T03:05:31Z)
Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。 LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文参考訳（メタデータ） (2024-06-24T17:58:03Z)
VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。 VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-04-01T07:44:24Z)
STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results for Video Question Answering [42.173245795917026]
本稿では,ビデオ質問応答のための時空間推論モデルSTAIRを提案する。 STAIRは、与えられた質問を複数のサブタスクの階層的な組み合わせに分解するプログラムジェネレータを含むニューラルネットワークである。我々は、STAIRのパフォーマンス、説明可能性、事前訓練されたモデルとの互換性、プログラムアノテーションが利用できない場合の適用性を示すために、いくつかのビデオ質問応答データセットに関する広範な実験を行った。
論文参考訳（メタデータ） (2024-01-08T14:01:59Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
Graph CNN for Moving Object Detection in Complex Environments from Unseen Videos [13.530860337575637]
移動物体検出(MOD)は多くのコンピュータビジョンアプリケーションにとって基本的なステップである。深層学習法は,MODと競争性能の両立に成功している。本研究では,グラフ畳み込みニューラルネットワーク(GCNN)を用いたノード分類問題としてMODの問題を提起する。
論文参考訳（メタデータ） (2022-07-13T18:00:12Z)
Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-12-10T14:47:02Z)
VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2020-11-19T22:32:03Z)
Learning to Discretely Compose Reasoning Module Networks for Video Captioning [81.81394228898591]
ビデオキャプションのための新しい視覚的推論手法であるReasoning Module Networks (RMN)を提案する。 RMNには3つの高度なRM時間的推論と,Gumbel近似を用いた言語的損失によって訓練された動的かつ離散的なモジュールセレクタが採用されている。
論文参考訳（メタデータ） (2020-07-17T15:27:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。