Fugu-MT 論文翻訳(概要): A Simple LLM Framework for Long-Range Video Question-Answering

論文の概要: A Simple LLM Framework for Long-Range Video Question-Answering

arxiv url: http://arxiv.org/abs/2312.17235v3
Date: Thu, 10 Oct 2024 05:17:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 23:03:22.733471
Title: A Simple LLM Framework for Long-Range Video Question-Answering
Title（参考訳）: 長時間ビデオ質問応答のための簡易LLMフレームワーク
Authors: Ce Zhang, Taixi Lu, Md Mohaiminul Islam, Ziyang Wang, Shoubin Yu, Mohit Bansal, Gedas Bertasius,
Abstract要約: 長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
参考スコア（独自算出の注目度）: 63.50439701867275
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present LLoVi, a language-based framework for long-range video question-answering (LVQA). Unlike prior long-range video understanding methods, which are often costly and require specialized long-range video modeling design (e.g., memory queues, state-space layers, etc.), our approach uses a frame/clip-level visual captioner (e.g., BLIP2, LaViLa, LLaVA) coupled with a Large Language Model (GPT-3.5, GPT-4) leading to a simple yet surprisingly effective LVQA framework. Specifically, we decompose short and long-range modeling aspects of LVQA into two stages. First, we use a short-term visual captioner to generate textual descriptions of short video clips (0.5-8s in length) densely sampled from a long input video. Afterward, an LLM aggregates the densely extracted short-term captions to perform long-range temporal reasoning needed to understand the whole video and answer a question. To analyze what makes our simple framework so effective, we thoroughly evaluate various components of our system. Our empirical analysis reveals that the choice of the visual captioner and LLM is critical for good LVQA performance. Furthermore, we show that a specialized prompt that asks the LLM first to summarize the noisy short-term visual captions and then answer a given input question leads to a significant LVQA performance boost. On EgoSchema, which is best known as a very long-form video question-answering benchmark, our method achieves 50.3% accuracy, outperforming the previous best-performing approach by 18.1% (absolute gain). In addition, our approach outperforms the previous state-of-the-art by 4.1% and 3.1% on NeXT-QA and IntentQA. We also extend LLoVi to grounded LVQA and show that it outperforms all prior methods on the NeXT-GQA dataset. We will release our code at https://github.com/CeeZh/LLoVi.
Abstract（参考訳）: 長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。従来の長距離ビデオ理解手法とは違って,フレーム/クリップレベルのビジュアルキャプタ(BLIP2, LaViLa, LLaVA)と大規模言語モデル(GPT-3.5, GPT-4)を併用することで,単純なLVQAフレームワークを実現する。具体的には,LVQAの短距離・長距離モデリングの側面を2段階に分解する。まず、短いビデオクリップ(0.5-8秒)のテキスト記述を、長い入力ビデオから高密度にサンプリングするために、短期視覚キャプタを用いて生成する。その後、LLMは、高密度に抽出された短いキャプションを集約して、ビデオ全体を理解して質問に答えるために必要な長距離時間的推論を行う。単純なフレームワークをなぜ効果的にするかを分析するため、システムの様々なコンポーネントを徹底的に評価する。その結果,視覚的キャプタとLLMの選択がLVQAの良好な性能に重要であることが明らかとなった。さらに,LLMに対して,まずノイズの多い短期的な視覚的キャプションを要約し,与えられた入力質問に答える特別なプロンプトが,LVQA性能を著しく向上させることを示す。 EgoSchemaは、非常に長いビデオ質問応答ベンチマークとしてよく知られており、我々の手法は50.3%の精度で、従来の最高のパフォーマンスのアプローチを18.1%(絶対ゲイン)で上回っている。さらに,NeXT-QAとIntentQAでは,従来の最先端技術よりも4.1%,3.1%向上した。また、LLoViを接地したLVQAに拡張し、NeXT-GQAデータセット上のすべての先行メソッドより優れていることを示す。コードをhttps://github.com/CeeZh/LLoViでリリースします。

関連論文リスト

Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames [70.93346841539626]
本稿では,ビデオ質問応答のための推論戦略である思考の時間的連鎖について述べる。 VLM自体を使用して、ビデオから最も関連性の高いフレームを反復的に識別し、抽出する。推論時により多くの計算を利用すれば、最も関連性の高いコンテキストを選択することで、精度が向上することを示す。
論文参考訳（メタデータ） (2025-07-01T18:39:26Z)
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs [59.854331104466254]
ビデオチャプティングの課題、すなわち、長いビデオタイムラインを意味単位に分割し、対応するチャプティングタイトルを生成する。本稿では,音声書き起こし内容に基づく軽量な音声誘導フレーム選択手法を提案し,その利点を実験的に示す。以上の結果から,最新のVidChapters-7Mベンチマークでは,技術の現状よりも大幅な改善が見られた。
論文参考訳（メタデータ） (2025-03-31T17:41:29Z)
FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs [8.18451834099348]
我々の新しいビデオエージェントFALCONEyeは、VLMとLarge Language Model(LLM)を組み合わせて、ビデオ上の関連情報を検索し、そのフレームを答えとともに見つけ出す。実験の結果,FALCONEye は FALCON-Bench の最先端技術よりも優れた性能を示し,関連するベンチマークでは類似あるいは良好な性能を示した。
論文参考訳（メタデータ） (2025-03-25T17:17:19Z)
VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs [27.473258727617477]
長いビデオ理解は、拡張タイムパンに対する推論の複雑さのために、ユニークな課題を提示する。 Informative Space-TemporAl Reasoning for long-form Video Understandingを提案する。提案モデルは,3つの長大ビデオ質問応答ベンチマークの最先端性を大幅に向上させる。
論文参考訳（メタデータ） (2024-09-30T15:04:14Z)
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文参考訳（メタデータ） (2024-07-17T15:59:32Z)
Hallucination Mitigation Prompts Long-term Video Understanding [36.26790392889717]
本稿では,既存のMLLMをベースとした包括的幻覚緩和パイプラインを構築する。私たちは、CLIPスコアを使用して、フレームサンプリングプロセスを質問でガイドし、質問に関連する重要なフレームを選択する。回答生成段階では、チェーン・オブ・コンテクストとイン・コンテクスト・ラーニングの手法を用いて、回答の生成を明示的に制御する。
論文参考訳（メタデータ） (2024-06-17T08:44:03Z)
Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.54207548074378]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。
論文参考訳（メタデータ） (2024-06-13T17:59:16Z)
Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。提案手法は,全タスクの絶対精度を3～6%向上させる。意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文参考訳（メタデータ） (2024-04-05T18:33:04Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
Natural Language Video Localization: A Revisit in Span-based Question Answering Framework [56.649826885121264]
自然言語ビデオローカライゼーション(NLVL)は、テキストクエリに意味的に対応する未編集ビデオからターゲットモーメントを見つけることを目的としている。既存のアプローチは主にコンピュータビジョンの観点からNLVL問題を解く。入力ビデオをテキストパスとして扱うことにより,NLVLを新たな視点,すなわちスパンベース質問応答(QA)に対処する。
論文参考訳（メタデータ） (2021-02-26T15:57:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。