論文の概要: STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results
for Video Question Answering
- arxiv url: http://arxiv.org/abs/2401.03901v1
- Date: Mon, 8 Jan 2024 14:01:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 16:32:15.373333
- Title: STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results
for Video Question Answering
- Title(参考訳): STAIR:ビデオ質問応答における聴取中間結果を用いた時空間推論
- Authors: Yueqian Wang, Yuxuan Wang, Kai Chen, Dongyan Zhao
- Abstract要約: 本稿では,ビデオ質問応答のための時空間推論モデルSTAIRを提案する。
STAIRは、与えられた質問を複数のサブタスクの階層的な組み合わせに分解するプログラムジェネレータを含むニューラルネットワークである。
我々は、STAIRのパフォーマンス、説明可能性、事前訓練されたモデルとの互換性、プログラムアノテーションが利用できない場合の適用性を示すために、いくつかのビデオ質問応答データセットに関する広範な実験を行った。
- 参考スコア(独自算出の注目度): 42.173245795917026
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently we have witnessed the rapid development of video question answering
models. However, most models can only handle simple videos in terms of temporal
reasoning, and their performance tends to drop when answering
temporal-reasoning questions on long and informative videos. To tackle this
problem we propose STAIR, a Spatial-Temporal Reasoning model with Auditable
Intermediate Results for video question answering. STAIR is a neural module
network, which contains a program generator to decompose a given question into
a hierarchical combination of several sub-tasks, and a set of lightweight
neural modules to complete each of these sub-tasks. Though neural module
networks are already widely studied on image-text tasks, applying them to
videos is a non-trivial task, as reasoning on videos requires different
abilities. In this paper, we define a set of basic video-text sub-tasks for
video question answering and design a set of lightweight modules to complete
them. Different from most prior works, modules of STAIR return intermediate
outputs specific to their intentions instead of always returning attention
maps, which makes it easier to interpret and collaborate with pre-trained
models. We also introduce intermediate supervision to make these intermediate
outputs more accurate. We conduct extensive experiments on several video
question answering datasets under various settings to show STAIR's performance,
explainability, compatibility with pre-trained models, and applicability when
program annotations are not available. Code:
https://github.com/yellow-binary-tree/STAIR
- Abstract(参考訳): 近年,ビデオ質問応答モデルの急速な発展が見られた。
しかし、ほとんどのモデルは、時間的推論の観点からのみ単純なビデオを扱うことができ、そのパフォーマンスは、長く情報的なビデオに関する時間的推論に答えるときに低下する傾向にある。
この問題を解決するために,ビデオ質問応答のための聴取中間結果を用いた時空間推論モデルSTAIRを提案する。
STAIRは、与えられた質問をいくつかのサブタスクの階層的な組み合わせに分解するプログラムジェネレータと、これらのサブタスクを補完する軽量なニューラルモジュールのセットを含む、ニューラルモジュールネットワークである。
ニューラルモジュールネットワークはすでに画像テキストタスクで広く研究されているが、ビデオの推論には異なる能力が必要であるため、ビデオに適用するのは簡単な作業ではない。
本稿では,ビデオ質問応答のための基本的なビデオテキストサブタスクのセットを定義し,それらを完成させるための軽量モジュールのセットを設計する。
以前の作業とは異なり、STAIRのモジュールは、常に注意マップを返すのではなく、その意図に固有の中間出力を返す。
また、これらの中間出力をより正確にするために中間監視を導入する。
我々は,stairの性能,説明可能性,事前学習モデルとの互換性,プログラムアノテーションが利用できない場合の適用性を示すため,各種設定の映像質問応答データセットを広範囲に実験した。
コード: https://github.com/yellow-binary-tree/stair
関連論文リスト
- Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Analyzing Zero-Shot Abilities of Vision-Language Models on Video
Understanding Tasks [6.925770576386087]
本稿では,ゼロショット環境における映像理解タスクの評価において,画像テキストモデルの一般化能力について詳細に検討する。
実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示すことがわかった。
これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-07T20:57:54Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。