論文の概要: Grid-LOGAT: Grid Based Local and Global Area Transcription for Video Question Answering
- arxiv url: http://arxiv.org/abs/2505.24371v2
- Date: Wed, 04 Jun 2025 06:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.483061
- Title: Grid-LOGAT: Grid Based Local and Global Area Transcription for Video Question Answering
- Title(参考訳): Grid-LOGAT:ビデオ質問応答のためのグリッドベースローカル・グローバルエリアの転写
- Authors: Md Intisar Chowdhury, Kittinun Aukkapinyo, Hiroshi Fujimura, Joo Ann Woo, Wasu Wasusatein, Fadoua Ghourabi,
- Abstract要約: 映像質問応答のためのグリッドベース地域・グローバル地域転写システム(Grid-LoGAT)を提案する。
視覚言語モデル(VLM)を用いたビデオフレームからのテキストテキストの抽出
次に、これらの書き起こしを用いて質問を処理し、Large Language Model (LLM) を通して回答を生成する。
そこで我々は,各グリッドセルから複雑な局所的詳細を抽出し,それらをグローバル情報と統合する,グリッドベースのビジュアルプロンプトを提案する。
- 参考スコア(独自算出の注目度): 0.4068270792140992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a Grid-based Local and Global Area Transcription (Grid-LoGAT) system for Video Question Answering (VideoQA). The system operates in two phases. First, extracting text transcripts from video frames using a Vision-Language Model (VLM). Next, processing questions using these transcripts to generate answers through a Large Language Model (LLM). This design ensures image privacy by deploying the VLM on edge devices and the LLM in the cloud. To improve transcript quality, we propose grid-based visual prompting, which extracts intricate local details from each grid cell and integrates them with global information. Evaluation results show that Grid-LoGAT, using the open-source VLM (LLaVA-1.6-7B) and LLM (Llama-3.1-8B), outperforms state-of-the-art methods with similar baseline models on NExT-QA and STAR-QA datasets with an accuracy of 65.9% and 50.11% respectively. Additionally, our method surpasses the non-grid version by 24 points on localization-based questions we created using NExT-QA. (This paper is accepted by IEEE ICIP 2025.)
- Abstract(参考訳): 本稿では,ビデオ質問応答システム(VideoQA)のためのグリッドベースローカル・グローバル地域転写システム(Grid-LoGAT)を提案する。
システムは2つのフェーズで動作します。
まず、VLM(Vision-Language Model)を用いて、ビデオフレームからテキストの書き起こしを抽出する。
次に、これらの書き起こしを用いて質問を処理し、Large Language Model (LLM) を通じて回答を生成する。
この設計により、エッジデバイスにVLMをデプロイし、クラウドにLLMをデプロイすることで、画像のプライバシが保証される。
そこで我々は,各グリッドセルから複雑な局所的詳細を抽出し,それらをグローバル情報と統合する,グリッドベースのビジュアルプロンプトを提案する。
評価の結果、Grid-LoGATはオープンソースのVLM(LLaVA-1.6-7B)とLLM(Llama-3.1-8B)を使用して、NExT-QAとSTAR-QAのデータセットでそれぞれ65.9%と50.11%の精度で、同様のベースラインモデルで最先端の手法より優れていることが示された。
さらに,NExT-QAを用いて作成した局所化に基づく質問に対して,非グリッドバージョンを24ポイント超えた。
(IEEE ICIP 2025)
関連論文リスト
- Pyramid Coder: Hierarchical Code Generator for Compositional Visual Question Answering [12.399738382728653]
視覚的質問応答(VQA)とは、視覚的な入力に基づいて、自然言語の質問に対して正確な回答を提供するタスクである。
本稿ではPVQAモデルのための新しいプロンプトフレームワークであるPraamidCoderを紹介する。
我々の手法は最先端のPVQAモデルと比較して、GQAデータセットで少なくとも0.5%、VQAv2データセットで1.4%、NLVR2データセットで2.9%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-30T05:36:43Z) - SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge [56.772051051558215]
大規模視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。
本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T13:32:07Z) - From Local to Global: A Graph RAG Approach to Query-Focused Summarization [4.075260785658849]
GraphRAGは、プライベートテキストコーパスに対する質問応答のためのグラフベースのアプローチである。
我々は,GraphRAGが従来のRAGベースラインよりも大幅に改善され,生成した回答の包括性と多様性が向上することを示す。
論文 参考訳(メタデータ) (2024-04-24T18:38:11Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - Span-based Localizing Network for Natural Language Video Localization [60.54191298092136]
非トリミングビデオとテキストクエリが与えられたとき、自然言語ビデオローカライゼーション(NLVL)は、クエリに意味的に対応するビデオからマッチングスパンを見つけることである。
NLVLに対処するビデオスパンローカライズネットワーク(VSLNet)を提案する。
論文 参考訳(メタデータ) (2020-04-29T02:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。