論文の概要: A Simple LLM Framework for Long-Range Video Question-Answering
- arxiv url: http://arxiv.org/abs/2312.17235v3
- Date: Thu, 10 Oct 2024 05:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:31.791944
- Title: A Simple LLM Framework for Long-Range Video Question-Answering
- Title(参考訳): 長時間ビデオ質問応答のための簡易LLMフレームワーク
- Authors: Ce Zhang, Taixi Lu, Md Mohaiminul Islam, Ziyang Wang, Shoubin Yu, Mohit Bansal, Gedas Bertasius,
- Abstract要約: 長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
- 参考スコア(独自算出の注目度): 63.50439701867275
- License:
- Abstract: We present LLoVi, a language-based framework for long-range video question-answering (LVQA). Unlike prior long-range video understanding methods, which are often costly and require specialized long-range video modeling design (e.g., memory queues, state-space layers, etc.), our approach uses a frame/clip-level visual captioner (e.g., BLIP2, LaViLa, LLaVA) coupled with a Large Language Model (GPT-3.5, GPT-4) leading to a simple yet surprisingly effective LVQA framework. Specifically, we decompose short and long-range modeling aspects of LVQA into two stages. First, we use a short-term visual captioner to generate textual descriptions of short video clips (0.5-8s in length) densely sampled from a long input video. Afterward, an LLM aggregates the densely extracted short-term captions to perform long-range temporal reasoning needed to understand the whole video and answer a question. To analyze what makes our simple framework so effective, we thoroughly evaluate various components of our system. Our empirical analysis reveals that the choice of the visual captioner and LLM is critical for good LVQA performance. Furthermore, we show that a specialized prompt that asks the LLM first to summarize the noisy short-term visual captions and then answer a given input question leads to a significant LVQA performance boost. On EgoSchema, which is best known as a very long-form video question-answering benchmark, our method achieves 50.3% accuracy, outperforming the previous best-performing approach by 18.1% (absolute gain). In addition, our approach outperforms the previous state-of-the-art by 4.1% and 3.1% on NeXT-QA and IntentQA. We also extend LLoVi to grounded LVQA and show that it outperforms all prior methods on the NeXT-GQA dataset. We will release our code at https://github.com/CeeZh/LLoVi.
- Abstract(参考訳): 長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
従来の長距離ビデオ理解手法とは違って,フレーム/クリップレベルのビジュアルキャプタ(BLIP2, LaViLa, LLaVA)と大規模言語モデル(GPT-3.5, GPT-4)を併用することで,単純なLVQAフレームワークを実現する。
具体的には,LVQAの短距離・長距離モデリングの側面を2段階に分解する。
まず、短いビデオクリップ(0.5-8秒)のテキスト記述を、長い入力ビデオから高密度にサンプリングするために、短期視覚キャプタを用いて生成する。
その後、LLMは、高密度に抽出された短いキャプションを集約して、ビデオ全体を理解して質問に答えるために必要な長距離時間的推論を行う。
単純なフレームワークをなぜ効果的にするかを分析するため、システムの様々なコンポーネントを徹底的に評価する。
その結果,視覚的キャプタとLLMの選択がLVQAの良好な性能に重要であることが明らかとなった。
さらに,LLMに対して,まずノイズの多い短期的な視覚的キャプションを要約し,与えられた入力質問に答える特別なプロンプトが,LVQA性能を著しく向上させることを示す。
EgoSchemaは、非常に長いビデオ質問応答ベンチマークとしてよく知られており、我々の手法は50.3%の精度で、従来の最高のパフォーマンスのアプローチを18.1%(絶対ゲイン)で上回っている。
さらに,NeXT-QAとIntentQAでは,従来の最先端技術よりも4.1%,3.1%向上した。
また、LLoViを接地したLVQAに拡張し、NeXT-GQAデータセット上のすべての先行メソッドより優れていることを示す。
コードをhttps://github.com/CeeZh/LLoViでリリースします。
関連論文リスト
- VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs [27.473258727617477]
長いビデオ理解は、拡張タイムパンに対する推論の複雑さのために、ユニークな課題を提示する。
Informative Space-TemporAl Reasoning for long-form Video Understandingを提案する。
提案モデルは,3つの長大ビデオ質問応答ベンチマークの最先端性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-30T15:04:14Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - Hallucination Mitigation Prompts Long-term Video Understanding [36.26790392889717]
本稿では,既存のMLLMをベースとした包括的幻覚緩和パイプラインを構築する。
私たちは、CLIPスコアを使用して、フレームサンプリングプロセスを質問でガイドし、質問に関連する重要なフレームを選択する。
回答生成段階では、チェーン・オブ・コンテクストとイン・コンテクスト・ラーニングの手法を用いて、回答の生成を明示的に制御する。
論文 参考訳(メタデータ) (2024-06-17T08:44:03Z) - Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.54207548074378]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。
正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。
論文 参考訳(メタデータ) (2024-06-13T17:59:16Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Natural Language Video Localization: A Revisit in Span-based Question
Answering Framework [56.649826885121264]
自然言語ビデオローカライゼーション(NLVL)は、テキストクエリに意味的に対応する未編集ビデオからターゲットモーメントを見つけることを目的としている。
既存のアプローチは主にコンピュータビジョンの観点からNLVL問題を解く。
入力ビデオをテキストパスとして扱うことにより,NLVLを新たな視点,すなわちスパンベース質問応答(QA)に対処する。
論文 参考訳(メタデータ) (2021-02-26T15:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。