論文の概要: MoReVQA: Exploring Modular Reasoning Models for Video Question Answering
- arxiv url: http://arxiv.org/abs/2404.06511v1
- Date: Tue, 9 Apr 2024 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 13:42:02.993046
- Title: MoReVQA: Exploring Modular Reasoning Models for Video Question Answering
- Title(参考訳): MoReVQA:ビデオ質問回答のためのモジュール推論モデルの検討
- Authors: Juhong Min, Shyamal Buch, Arsha Nagrani, Minsu Cho, Cordelia Schmid,
- Abstract要約: 本稿では,ビデオ質問応答(videoQA)の課題を,分解した多段階モジュラー推論フレームワークを用いて解決する。
従来の単一ステージ計画手法とは異なり、イベント、グラウンドステージ、最終的な推論ステージからなるマルチステージシステムと外部メモリとの組み合わせを提案する。
- 参考スコア(独自算出の注目度): 101.25249395748794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the task of video question answering (videoQA) via a decomposed multi-stage, modular reasoning framework. Previous modular methods have shown promise with a single planning stage ungrounded in visual content. However, through a simple and effective baseline, we find that such systems can lead to brittle behavior in practice for challenging videoQA settings. Thus, unlike traditional single-stage planning methods, we propose a multi-stage system consisting of an event parser, a grounding stage, and a final reasoning stage in conjunction with an external memory. All stages are training-free, and performed using few-shot prompting of large models, creating interpretable intermediate outputs at each stage. By decomposing the underlying planning and task complexity, our method, MoReVQA, improves over prior work on standard videoQA benchmarks (NExT-QA, iVQA, EgoSchema, ActivityNet-QA) with state-of-the-art results, and extensions to related tasks (grounded videoQA, paragraph captioning).
- Abstract(参考訳): 本稿では,ビデオ質問応答(videoQA)の課題を,分解した多段階モジュラー推論フレームワークを用いて解決する。
以前のモジュラー手法では、視覚的コンテンツに埋もれていない単一の計画段階が約束されている。
しかし, 単純かつ効果的なベースラインによって, ビデオQA設定に挑戦するためには, 動作が不安定になる可能性があることがわかった。
したがって、従来の単一ステージ計画法とは異なり、イベントパーサ、グラウンドステージ、最終的な推論ステージと外部メモリを組み合わせたマルチステージシステムを提案する。
すべてのステージはトレーニング不要で、大きなモデルのほとんどショットプロンプトを使用して実行され、各ステージで解釈可能な中間出力を生成する。
提案手法であるMoReVQAは,従来のビデオQAベンチマーク (NExT-QA, iVQA, EgoSchema, ActivityNet-QA) を最新技術による結果と関連するタスクの拡張(ビデオQA, 段落)で改善する。
関連論文リスト
- Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos [35.974750867072345]
本稿では,長めの自己中心型ビデオにおけるMH-VidQA(Multi-Hop Video Question Answering)の問題について考察する。
時間的エビデンスを伴う複数ホップ質問応答ペアを生成するための自動パイプラインを開発する。
次に,大規模言語モデル (GeLM) を用いたグラウンディング散乱証拠 (Gunding Scattered Evidence with Large Language Model) と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-08-26T17:58:47Z) - Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering [7.429984955853609]
ビデオ質問応答のための簡単なQ-ViD(ビデオQA)を提案する。
Q-ViDは、フレーム記述を用いたビデオQAに取り組むために、単一の命令対応オープンビジョン言語モデル(InstructBLIP)に依存している。
論文 参考訳(メタデータ) (2024-02-16T13:59:07Z) - STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results
for Video Question Answering [42.173245795917026]
本稿では,ビデオ質問応答のための時空間推論モデルSTAIRを提案する。
STAIRは、与えられた質問を複数のサブタスクの階層的な組み合わせに分解するプログラムジェネレータを含むニューラルネットワークである。
我々は、STAIRのパフォーマンス、説明可能性、事前訓練されたモデルとの互換性、プログラムアノテーションが利用できない場合の適用性を示すために、いくつかのビデオ質問応答データセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-01-08T14:01:59Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。
我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。
FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-04T05:21:36Z) - MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling [7.737755720567113]
本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。
また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
論文 参考訳(メタデータ) (2023-03-10T05:22:39Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。