Fugu-MT 論文翻訳(概要): Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

論文の概要: Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

arxiv url: http://arxiv.org/abs/2409.14485v4
Date: Tue, 10 Dec 2024 12:45:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 17:53:31.815496
Title: Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
Title（参考訳）: Video-XL:24時間ビデオ理解のための極長ビジョン言語モデル
Authors: Yan Shu, Zheng Liu, Peitian Zhang, Minghao Qin, Junjie Zhou, Zhengyang Liang, Tiejun Huang, Bo Zhao,
Abstract要約: Video-XLはMLLM固有のキー値スカラー化能力を活用して視覚入力を凝縮する新しい手法である。ビデオXLの有効性は3つの側面から検証される。第一に、より優れた長ビデオ理解能力を実現し、同等の大きさの最先端モデルよりも優れる。
参考スコア（独自算出の注目度）: 25.61734041983714
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Long video understanding poses a significant challenge for current Multi-modal Large Language Models (MLLMs). Notably, the MLLMs are constrained by their limited context lengths and the substantial costs while processing long videos. Although several existing methods attempt to reduce visual tokens, their strategies encounter severe bottleneck, restricting MLLMs' ability to perceive fine-grained visual details. In this work, we propose Video-XL, a novel approach that leverages MLLMs' inherent key-value (KV) sparsification capacity to condense the visual input. Specifically, we introduce a new special token, the Visual Summarization Token (VST), for each interval of the video, which summarizes the visual information within the interval as its associated KV. The VST module is trained by instruction fine-tuning, where two optimizing strategies are offered. 1.Curriculum learning, where VST learns to make small (easy) and large compression (hard) progressively. 2. Composite data curation, which integrates single-image, multi-image, and synthetic data to overcome the scarcity of long-video instruction data. The compression quality is further improved by dynamic compression, which customizes compression granularity based on the information density of different video intervals. Video-XL's effectiveness is verified from three aspects. First, it achieves a superior long-video understanding capability, outperforming state-of-the-art models of comparable sizes across multiple popular benchmarks. Second, it effectively preserves video information, with minimal compression loss even at 16x compression ratio. Third, it realizes outstanding cost-effectiveness, enabling high-quality processing of thousands of frames on a single A100 GPU.
Abstract（参考訳）: 長いビデオ理解は、現在のMLLM(Multi-modal Large Language Models)にとって重要な課題である。特に、MLLMはコンテキスト長が限られており、長いビデオを処理する際にかなりのコストがかかる。既存のいくつかの手法は視覚的トークンを減らそうとしているが、それらの戦略は重大なボトルネックに遭遇し、MLLMの細かな視覚的詳細を知覚する能力を制限する。本研究では,MLLMの固有キー値(KV)スペーシフィケーション能力を利用して視覚入力を凝縮する新しい手法であるVideo-XLを提案する。具体的には、ビデオの各間隔に視覚的要約トークン(Visual Summarization Token, VST)を導入し、その間隔内の視覚情報を関連するKVとして要約する。 VSTモジュールは命令の微調整によって訓練され、2つの最適化戦略が提供される。 VSTは小さく(簡単)かつ大きめの圧縮(硬い)を徐々に学習する。 2。複合データキュレーション - 単一画像、複数画像、合成データを統合して、長ビデオ命令データの不足を克服する。圧縮品質は動的圧縮によりさらに向上し、異なるビデオ間隔の情報密度に基づいて圧縮粒度をカスタマイズする。ビデオXLの有効性は3つの側面から検証される。まず、複数の人気のあるベンチマークで比較可能な大きさの最先端モデルよりも優れた長ビデオ理解能力を実現する。第2に、圧縮比が16倍であっても、圧縮損失を最小限に抑えながら、映像情報を効果的に保存する。第3に、A100 GPU上で数千フレームの高品質な処理を可能にする、優れたコスト効率を実現する。

関連論文リスト

Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification [9.615466029246694]
Video-XL-2は、タスク対応KVスペーシングに基づく長時間ビデオ理解に優れたコスト効率を提供する新しいMLLMである。 NVIDIA A100(80GB)のGPUで1万フレーム以上を処理でき、数千フレームをほんの数秒で処理できる。
論文参考訳（メタデータ） (2025-06-24T01:19:56Z)
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文参考訳（メタデータ） (2025-04-21T17:57:21Z)
LVC: A Lightweight Compression Framework for Enhancing VLMs in Long Video Understanding [29.719450799231705]
VLM(Vision-Language Models)は、多フレーム入力によってフレームレベルの理解能力を得る。ビデオ大言語モデル(Video Large Language Models, Video-LLMs)は、視覚機能内の時間的関係をキャプチャするが、高品質のビデオテキストデータセットの不足によって制限される。本稿では,クエリ・アテンション・ビデオ圧縮機構を備えた新しい手法である軽量ビデオ圧縮(LVC)を提案する。
論文参考訳（メタデータ） (2025-04-09T12:51:10Z)
Slow-Fast Architecture for Video Multi-Modal Large Language Models [42.3957835391319]
既存の方法では、事前に定義されたルールを使用してビデオ表現を圧縮し、マルチモーダルな大言語モデルに入力する。本稿では、このトレードオフを自然に回避し、空間的詳細を保存しながらより多くの入力フレームを使用できる、新しい低速アーキテクチャを提案する。提案モデルでは,入力容量を16フレームから128フレームに拡張し,計算能力は3%向上した。
論文参考訳（メタデータ） (2025-04-02T03:24:58Z)
Video-XL-Pro: Reconstructive Token Compression for Extremely Long Video Understanding [12.215829700340988]
Video-XL-Proは、非常に長いビデオ理解のための効率的な方法である。 Video-XL-Proは、1つのA100 GPUで8Kフレーム以上を処理できる。
論文参考訳（メタデータ） (2025-03-24T09:21:48Z)
AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding [55.320254859515714]
MLLM(Multimodal Large Language Models)は、ビデオ理解に革命をもたらしたが、長いビデオを処理する際の文脈長によって制限されている。 AdaReTaKeは,時間と層間の圧縮比を理論的保証とともに割り当てることで,視覚的冗長性を柔軟に低減する訓練自由手法である。 VideoMME、MLVU、LongVideoBench、LVBenchのデータセットの実験では、AdaReTaKeは既存の7Bモデルと72Bモデルでそれぞれ2.3%、そして2.8%を上回っている。
論文参考訳（メタデータ） (2025-03-16T16:14:52Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。 InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-01-21T18:59:00Z)
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-12-31T18:01:23Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文参考訳（メタデータ） (2024-09-30T07:25:16Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input [34.50993235961505]
Kangarooは、長いビデオを処理するという課題に対処するための強力なビデオLMMである。データキュレーションシステムは、視覚言語による事前学習と命令チューニングのための高品質なアノテーションを備えた大規模データセットを構築する。長いビデオに対応するための解像度と入力フレームの数を徐々に増やしたカリキュラムトレーニングパイプライン。
論文参考訳（メタデータ） (2024-08-28T05:34:14Z)
Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。本稿では,言語モデルの観点からこの問題にアプローチする。言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文参考訳（メタデータ） (2024-06-24T17:58:06Z)
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2024-04-08T17:59:24Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
Retrieval-based Video Language Model for Efficient Long Video Question Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文参考訳（メタデータ） (2023-12-08T09:48:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。