Fugu-MT 論文翻訳(概要): Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering

論文の概要: Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering

arxiv url: http://arxiv.org/abs/2402.10698v1
Date: Fri, 16 Feb 2024 13:59:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 15:48:41.396658
Title: Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering
Title（参考訳）: ゼロショットビデオ質問応答のための質問指導視覚記述
Authors: David Romero, Thamar Solorio
Abstract要約: ビデオ質問応答のための簡単なQ-ViD(ビデオQA)を提案する。 Q-ViDは、フレーム記述を用いたビデオQAに取り組むために、単一の命令対応オープンビジョン言語モデル(InstructBLIP)に依存している。
参考スコア（独自算出の注目度）: 8.777542963381235
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Q-ViD, a simple approach for video question answering (video QA), that unlike prior methods, which are based on complex architectures, computationally expensive pipelines or use closed models like GPTs, Q-ViD relies on a single instruction-aware open vision-language model (InstructBLIP) to tackle videoQA using frame descriptions. Specifically, we create captioning instruction prompts that rely on the target questions about the videos and leverage InstructBLIP to obtain video frame captions that are useful to the task at hand. Subsequently, we form descriptions of the whole video using the question-dependent frame captions, and feed that information, along with a question-answering prompt, to a large language model (LLM). The LLM is our reasoning module, and performs the final step of multiple-choice QA. Our simple Q-ViD framework achieves competitive or even higher performances than current state of the art models on a diverse range of videoQA benchmarks, including NExT-QA, STAR, How2QA, TVQA and IntentQA.
Abstract（参考訳）: 本稿では,複雑なアーキテクチャや計算コストの高いパイプライン,GPTなどのクローズドモデルなどに基づく従来の手法とは異なり,Q-ViDはフレーム記述を用いたビデオQAに対処するための単一の命令対応オープンビジョン言語モデル(InstructBLIP)に依存している。具体的には,ビデオに関する対象質問に依拠するキャプション指示プロンプトを作成し,instructblipを利用して手元の作業に有用なビデオフレームキャプションを取得する。その後,質問に依存したフレームキャプションを用いてビデオ全体の記述を作成し,その情報と質問応答プロンプトを大言語モデル(llm)に供給する。 LLMは我々の推論モジュールであり、多重選択QAの最終ステップを実行します。我々の単純なQ-ViDフレームワークは、NExT-QA、STAR、How2QA、TVQA、IntentQAを含む様々なビデオQAベンチマークにおいて、現在の技術モデルよりも競争力や高いパフォーマンスを達成する。

関連論文リスト

FIQ: Fundamental Question Generation with the Integration of Question Embeddings for Video Question Answering [26.585985828583304]
ビデオ質問(英語: Video question of answering、VQA)とは、ある質問に答えるためにビデオの解釈を必要とするタスクである。本稿では,ビデオの基本的な理解を深めることにより,モデルの推論能力を高めるための新しい手法を提案する。
論文参考訳（メタデータ） (2025-07-17T06:19:38Z)
REVEAL: Relation-based Video Representation Learning for Video-Question-Answering [14.867263291053968]
本稿では,リレーションに基づくrEpresentAtion Learning(REVEAL)を提案する。バイテンポラルなシーングラフにインスパイアされたビデオシーケンスは、言語埋め込みを通して、時間とともに(サブジェクト・プレディケート・オブジェクト)の形で、関係三重項の集合としてエンコードする。提案手法を,NeXT-QA,Intent-QA,STAR,VLEP,TVQAの5つのベンチマークで評価した。
論文参考訳（メタデータ） (2025-04-07T19:54:04Z)
Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文参考訳（メタデータ） (2024-12-26T17:53:14Z)
VidCtx: Context-aware Video Question Answering with Image Models [15.1350316858766]
VidCtxは、入力フレームからの視覚情報と他のフレームのテキスト記述の両方を統合する、新しいトレーニング不要なビデオQAフレームワークである。実験により、VidCtxはオープンモデルに依存するアプローチ間の競争性能を達成することが示された。
論文参考訳（メタデータ） (2024-12-23T09:26:38Z)
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。 GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T08:33:36Z)
SparrowVQE: Visual Question Explanation for Course Content Understanding [12.926309478839652]
本稿では、視覚的質問説明(VQE)を導入し、VQAの詳細な説明を提供する能力を高める。我々は,マルチモーダル・プレトレーニング,インストラクション・チューニング,ドメインファインチューニングという3段階のトレーニング機構でモデルを訓練した。実験結果から,我々のSparrowVQEは,開発したMLVQEデータセットの性能向上と,他の5つのベンチマークVQAデータセットの最先端メソッドのパフォーマンス向上を実証した。
論文参考訳（メタデータ） (2024-11-12T03:25:33Z)
Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文参考訳（メタデータ） (2024-04-12T16:35:23Z)
MoReVQA: Exploring Modular Reasoning Models for Video Question Answering [101.25249395748794]
本稿では,ビデオ質問応答(videoQA)の課題を,分解した多段階モジュラー推論フレームワークを用いて解決する。従来の単一ステージ計画手法とは異なり、イベント、グラウンドステージ、最終的な推論ステージからなるマルチステージシステムと外部メモリとの組み合わせを提案する。
論文参考訳（メタデータ） (2024-04-09T17:59:31Z)
Zero-Shot Video Question Answering with Procedural Programs [18.767610951412426]
本稿では,このようなプログラムを生成するために,大規模言語モデルを用いたProViQ(Procedural Video Querying)を提案する。 ProViQにはビデオ理解のためのモジュールがあり、多様なビデオに一般化できる。 ProViQは、さまざまなベンチマークで最先端の結果を達成し、ショート、ロング、オープン、マルチモーダルのビデオ質問応答データセットで最大25%改善されている。
論文参考訳（メタデータ） (2023-12-01T21:34:10Z)
Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文参考訳（メタデータ） (2022-08-01T15:35:38Z)
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文参考訳（メタデータ） (2022-06-16T13:18:20Z)
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文参考訳（メタデータ） (2021-05-18T04:56:46Z)
End-to-End Video Question-Answer Generation with Generator-Pretester Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文参考訳（メタデータ） (2021-01-05T10:46:06Z)
Hierarchical Conditional Relation Networks for Multimodal Video Question Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文参考訳（メタデータ） (2020-10-18T02:31:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。