論文の概要: VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos
- arxiv url: http://arxiv.org/abs/2405.19209v1
- Date: Wed, 29 May 2024 15:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:31:41.485314
- Title: VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos
- Title(参考訳): VideoTree:長いビデオのLLM推論のための適応的ツリーベースビデオ表現
- Authors: Ziyang Wang, Shoubin Yu, Elias Stengel-Eskin, Jaehong Yoon, Feng Cheng, Gedas Bertasius, Mohit Bansal,
- Abstract要約: VideoTreeは、大規模言語モデルによる長いビデオ理解のための、クエリ適応的で階層的なフレームワークである。
VideoTreeは、視覚的特徴に基づいて反復的なクラスタリングフレームによってキャプション用のフレームを適応的に選択する。
ビジュアルクラスタをクエリ適応的で階層的なツリー構造に整理する。
- 参考スコア(独自算出の注目度): 67.78336281317347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-language understanding tasks have focused on short video clips, often struggling with long-form video understanding tasks. Recently, many long video-language understanding approaches have leveraged the reasoning capabilities of Large Language Models (LLMs) to perform long video QA, transforming videos into densely sampled frame captions, and asking LLMs to respond to text queries over captions. However, the frames used for captioning are often redundant and contain irrelevant information, making dense sampling inefficient, and ignoring the fact that video QA requires varying levels of granularity, with some video segments being highly relevant to the question (needing more fine-grained detail) while others being less relevant. Thus, these LLM-based approaches are prone to missing information and operate on large numbers of irrelevant captions, lowering both performance and efficiency. To address these issues, we introduce VideoTree, a query-adaptive and hierarchical framework for long-video understanding with LLMs. VideoTree dynamically extracts query-related information from a video and builds a tree-based representation for LLM reasoning. First, VideoTree adaptively selects frames for captioning by iteratively clustering frames based on their visual features and scoring clusters using their relevance to the query. Second, it organizes visual clusters into a query-adaptive and hierarchical tree structure; the tree encodes varying levels of granularity, with higher resolution on relevant segments. Finally, VideoTree produces an answer by traversing the tree's keyframes and passing their captions to an LLM answerer. Our method improves both reasoning accuracy and efficiency compared to existing methods: VideoTree achieves a 7.0%, 2.2%, and 2.7% accuracy gain over baselines on the EgoSchema, NExT-QA, and IntentQA benchmarks, respectively, while reducing inference time by 40%.
- Abstract(参考訳): ビデオ言語理解タスクは短いビデオクリップに焦点を合わせており、長いビデオ理解タスクでしばしば苦労している。
近年,Large Language Models (LLMs) の推論機能を活用して,長いビデオQAを行い,動画を高密度のサンプルフレームキャプションに変換し,LLMに対して字幕上のテキストクエリに応答するよう求めている。
しかし、キャプションに用いられるフレームはしばしば冗長であり、無関係な情報を含んでいるため、サンプリングの非効率化や、ビデオQAが様々なレベルの粒度を必要とするという事実を無視している。
したがって、これらのLCMベースのアプローチは、情報の欠落を招き、多くの無関係なキャプションで動作し、性能と効率の両方を低下させる。
これらの問題に対処するために,LLMを用いた長時間ビデオ理解のためのクエリ適応型階層型フレームワークであるVideoTreeを紹介する。
VideoTreeは、ビデオからクエリ関連の情報を動的に抽出し、LLM推論のためのツリーベースの表現を構築する。
まず、VideoTreeは、視覚的特徴に基づいてフレームを反復的にクラスタリングすることでキャプション用のフレームを適応的に選択し、クエリとの関連性を利用してクラスタをスコアリングする。
第二に、ビジュアルクラスタをクエリ適応的で階層的なツリー構造に整理し、ツリーは関連するセグメントの解像度を高くして、さまざまなレベルの粒度をエンコードする。
最後に、VideoTreeは木のキーフレームをトラバースし、それらのキャプションをLSMの応答子に渡すことで答えを生成する。
提案手法は,既存の手法と比較して,推理精度と効率を両立させる: VideoTreeは,EgoSchema, NExT-QA, IntentQAベンチマークのベースラインよりも7.0%, 2.2%, 2.7%の精度向上を実現し,推論時間を40%削減した。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - DrVideo: Document Retrieval Based Long Video Understanding [44.34473173458403]
DrVideoは、長いビデオ理解のために設計されたドキュメント検索ベースのシステムである。
まず、長いビデオを粗いテキストベースの長文に変換して、キーフレームを検索し、拡張されたキーフレーム情報で文書を更新する。
その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、十分な質問関連情報が収集されるまで文書を増補する。
論文 参考訳(メタデータ) (2024-06-18T17:59:03Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。