論文の概要: Zero-Shot Video Question Answering with Procedural Programs
- arxiv url: http://arxiv.org/abs/2312.00937v1
- Date: Fri, 1 Dec 2023 21:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:03:34.036799
- Title: Zero-Shot Video Question Answering with Procedural Programs
- Title(参考訳): 手続き型プログラムによるゼロショットビデオ質問応答
- Authors: Rohan Choudhury, Koichiro Niinuma, Kris M. Kitani, L\'aszl\'o A. Jeni
- Abstract要約: 本稿では,このようなプログラムを生成するために,大規模言語モデルを用いたProViQ(Procedural Video Querying)を提案する。
ProViQにはビデオ理解のためのモジュールがあり、多様なビデオに一般化できる。
ProViQは、さまざまなベンチマークで最先端の結果を達成し、ショート、ロング、オープン、マルチモーダルのビデオ質問応答データセットで最大25%改善されている。
- 参考スコア(独自算出の注目度): 18.767610951412426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to answer zero-shot questions about videos by generating short
procedural programs that derive a final answer from solving a sequence of
visual subtasks. We present Procedural Video Querying (ProViQ), which uses a
large language model to generate such programs from an input question and an
API of visual modules in the prompt, then executes them to obtain the output.
Recent similar procedural approaches have proven successful for image question
answering, but videos remain challenging: we provide ProViQ with modules
intended for video understanding, allowing it to generalize to a wide variety
of videos. This code generation framework additionally enables ProViQ to
perform other video tasks in addition to question answering, such as
multi-object tracking or basic video editing. ProViQ achieves state-of-the-art
results on a diverse range of benchmarks, with improvements of up to 25% on
short, long, open-ended, and multimodal video question-answering datasets. Our
project page is at https://rccchoudhury.github.io/proviq2023.
- Abstract(参考訳): 視覚的なサブタスクの列から最終回答を得る短い手続きプログラムを生成することにより、ビデオに関するゼロショット問題に答えることを提案する。
本稿では ProViQ (Procedural Video Querying) を提案する。プロンプト内の入力問題と視覚モジュールのAPIからそのようなプログラムを生成するために,大規模な言語モデルを用いて,それらを実行して出力を得る。
ビデオ理解のためのモジュールをProViQに提供し、さまざまなビデオに一般化できるようにしています。
このコード生成フレームワークは、マルチオブジェクト追跡や基本的なビデオ編集などの質問応答に加えて、ProViQが他のビデオタスクを実行できる。
ProViQはさまざまなベンチマークで最先端の結果を達成し、ショート、ロング、オープン、マルチモーダルのビデオ質問応答データセットで最大25%改善されている。
プロジェクトページはhttps://rccchoudhury.github.io/proviq2023。
関連論文リスト
- Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering [7.429984955853609]
ビデオ質問応答のための簡単なQ-ViD(ビデオQA)を提案する。
Q-ViDは、フレーム記述を用いたビデオQAに取り組むために、単一の命令対応オープンビジョン言語モデル(InstructBLIP)に依存している。
論文 参考訳(メタデータ) (2024-02-16T13:59:07Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - End-to-End Video Question-Answer Generation with Generator-Pretester
Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。
キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文 参考訳(メタデータ) (2021-01-05T10:46:06Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z) - Video Question Answering on Screencast Tutorials [43.00474548031818]
ソフトウェアのためのチュートリアルビデオから,質問,回答,コンテキストの3倍のデータセットを導入する。
ワンショット認識アルゴリズムは,映像質問応答の性能向上に役立つ視覚的手がかりを抽出するように設計されている。
論文 参考訳(メタデータ) (2020-08-02T19:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。