論文の概要: A Simple LLM Framework for Long-Range Video Question-Answering
- arxiv url: http://arxiv.org/abs/2312.17235v2
- Date: Mon, 26 Feb 2024 17:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:28:19.723251
- Title: A Simple LLM Framework for Long-Range Video Question-Answering
- Title(参考訳): 長時間ビデオ質問応答のための簡易LLMフレームワーク
- Authors: Ce Zhang, Taixi Lu, Md Mohaiminul Islam, Ziyang Wang, Shoubin Yu,
Mohit Bansal, Gedas Bertasius
- Abstract要約: 長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
- 参考スコア(独自算出の注目度): 66.68887077133355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LLoVi, a language-based framework for long-range video
question-answering (LVQA). Unlike prior long-range video understanding methods,
which are often costly and require specialized long-range video modeling design
(e.g., memory queues, state-space layers, etc.), our approach uses a
frame/clip-level visual captioner (e.g., BLIP2, LaViLa, LLaVA) coupled with a
Large Language Model (GPT-3.5, GPT-4) leading to a simple yet surprisingly
effective LVQA framework. Specifically, we decompose short and long-range
modeling aspects of LVQA into two stages. First, we use a short-term visual
captioner to generate textual descriptions of short video clips (0.5-8s in
length) densely sampled from a long input video. Afterward, an LLM aggregates
the densely extracted short-term captions to perform long-range temporal
reasoning needed to understand the whole video and answer a question. To
analyze what makes our simple framework so effective, we thoroughly evaluate
various components of our system. Our empirical analysis reveals that the
choice of the visual captioner and LLM is critical for good LVQA performance.
Furthermore, we show that a specialized prompt that asks the LLM first to
summarize the noisy short-term visual captions and then answer a given input
question leads to a significant LVQA performance boost. On EgoSchema, which is
best known as a very long-form video question-answering benchmark, our method
achieves 50.3% accuracy, outperforming the previous best-performing approach by
18.1% (absolute gain). In addition, our approach outperforms the previous
state-of-the-art by 4.1% and 3.1% on NeXT-QA and IntentQA. We also extend LLoVi
to grounded LVQA and show that it outperforms all prior methods on the NeXT-GQA
dataset. We will release our code at https://github.com/CeeZh/LLoVi.
- Abstract(参考訳): 長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
従来の長距離映像理解手法とは異なり,この手法ではフレーム/クリップレベルの視覚キャプション(例えば, blip2, lavila, llava)と大規模言語モデル(gpt-3.5, gpt-4)を組み合わせることで,単純かつ驚くほど効率的なlvqaフレームワークを実現する。
具体的には,LVQAの短距離・長距離モデリングの側面を2段階に分解する。
まず、短いビデオクリップ(0.5-8秒)のテキスト記述を生成するために、短い視覚キャプタを用いて、長い入力ビデオから密にサンプリングする。
その後、LLMは、高密度に抽出された短い字幕を集約して、ビデオ全体を理解して質問に答えるために必要な長距離時間的推論を行う。
単純なフレームワークをなぜ効果的にするかを分析するため、システムの様々なコンポーネントを徹底的に評価する。
その結果,視覚的キャプタとLLMの選択がLVQAの良好な性能に重要であることが明らかとなった。
さらに,LLMに対して,まずノイズの多い短期的な視覚的キャプションを要約し,与えられた入力質問に答える特別なプロンプトが,LVQA性能を著しく向上させることを示す。
非常に長い形式のビデオ質問応答ベンチマークとして知られるegoschemaでは、従来のベストパフォーマンスアプローチを18.1%上回って50.3%の精度を達成している(絶対ゲイン)。
さらに,NeXT-QAとIntentQAでは,従来の最先端技術よりも4.1%,3.1%向上した。
また、LLoViを接地したLVQAに拡張し、NeXT-GQAデータセット上のすべての先行メソッドより優れていることを示す。
コードをhttps://github.com/CeeZh/LLoViでリリースします。
関連論文リスト
- TempCompass: Do Video LLMs Really Understand Videos? [37.654437491817525]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
時間的側面とタスクフォーマットの多様性を導入した textbfTemp ベンチマークを提案する。
Tempをベースとして,8つの最先端(SOTA)ビデオLLMと3つの画像LLMを総合的に評価し,これらのモデルが時間知覚能力に劣ることを示す。
論文 参考訳(メタデータ) (2024-03-01T12:02:19Z) - Text-Conditioned Resampler For Long Form Video Understanding [101.7267777444705]
タスクの長いビデオシーケンスを処理するために,テキスト条件付きビデオリサンプラー(TCR)モジュールを提案する。
TCRは、テキスト条件が与えられたビデオから関連する視覚的特徴をローカライズし、テキスト応答を生成するために大きな言語モデルを提供する。
軽量な設計とクロスアテンションの使用により、TCRは100フレーム以上を一度に処理できるため、以前の作品よりもずっと長いビデオのチャンクを使用することができる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Large Language Models are Temporal and Causal Reasoners for Video
Question Answering [16.722148605611146]
大規模言語モデル(LLM)は、幅広い自然言語理解および生成タスクにおいて顕著なパフォーマンスを示している。
本稿では、新しいフレームワークFlipped-VQAを提案し、$langle$V, Q, A$rangle$ tripletのすべての組み合わせを予測することをモデルに推奨する。
Flipped-VQAは言語的ショートカットの活用を促進させるだけでなく、言語バイアスを緩和する。
論文 参考訳(メタデータ) (2023-10-24T11:44:39Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for
Vision-Language Models [66.37493420911979]
視覚言語モデル(LVLM)に入力がどのように提示されるかは、ゼロショットモデルの性能に大きな影響を与える可能性がある。
本稿では,LVLMをキャプタと推論器として用い,画像の健全な詳細を抽出するフレームワークであるRephrase, Augment and Reason(RepARe)を紹介する。
VQAv2ではRepAReが3.85%(絶対)増加し,A-OKVQAでは6.41%向上することを示した。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Natural Language Video Localization: A Revisit in Span-based Question
Answering Framework [56.649826885121264]
自然言語ビデオローカライゼーション(NLVL)は、テキストクエリに意味的に対応する未編集ビデオからターゲットモーメントを見つけることを目的としている。
既存のアプローチは主にコンピュータビジョンの観点からNLVL問題を解く。
入力ビデオをテキストパスとして扱うことにより,NLVLを新たな視点,すなわちスパンベース質問応答(QA)に対処する。
論文 参考訳(メタデータ) (2021-02-26T15:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。