論文の概要: Apollo: An Exploration of Video Understanding in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2412.10360v1
- Date: Fri, 13 Dec 2024 18:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:54.088677
- Title: Apollo: An Exploration of Video Understanding in Large Multimodal Models
- Title(参考訳): Apollo: 大規模マルチモーダルモデルにおけるビデオ理解の探索
- Authors: Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia,
- Abstract要約: 本稿では,大規模マルチモーダルモデルにおいて映像理解を効果的に推進する要因を明らかにする研究について述べる。
われわれのモデルは、1時間の動画を効率よく知覚でき、Apollo-3Bは、LongVideoBenchの55.1で、既存の7ドルBのモデルよりも優れている。
Apollo-7B は 7B LMM に対して MLVU では 70.9 、 Video-MME では 63.3 である。
- 参考スコア(独自算出の注目度): 65.06400672040836
- License:
- Abstract: Despite the rapid integration of video perception capabilities into Large Multimodal Models (LMMs), the underlying mechanisms driving their video understanding remain poorly understood. Consequently, many design decisions in this domain are made without proper justification or analysis. The high computational cost of training and evaluating such models, coupled with limited open research, hinders the development of video-LMMs. To address this, we present a comprehensive study that helps uncover what effectively drives video understanding in LMMs. We begin by critically examining the primary contributors to the high computational requirements associated with video-LMM research and discover Scaling Consistency, wherein design and training decisions made on smaller models and datasets (up to a critical size) effectively transfer to larger models. Leveraging these insights, we explored many video-specific aspects of video-LMMs, including video sampling, architectures, data composition, training schedules, and more. For example, we demonstrated that fps sampling during training is vastly preferable to uniform frame sampling and which vision encoders are the best for video representation. Guided by these findings, we introduce Apollo, a state-of-the-art family of LMMs that achieve superior performance across different model sizes. Our models can perceive hour-long videos efficiently, with Apollo-3B outperforming most existing $7$B models with an impressive 55.1 on LongVideoBench. Apollo-7B is state-of-the-art compared to 7B LMMs with a 70.9 on MLVU, and 63.3 on Video-MME.
- Abstract(参考訳): ビデオ認識機能がLMM(Large Multimodal Models)に急速に統合されているにもかかわらず、その基盤となるメカニズムはいまだに理解されていない。
したがって、この領域における多くの設計決定は、適切な正当化や分析なしになされる。
このようなモデルの訓練と評価に高い計算コストと限られたオープンな研究が組み合わさって、ビデオLMMの開発を妨げている。
そこで本研究では,LMMにおける映像理解を効果的に推進する要因を明らかにするための総合的研究について述べる。
まず、ビデオLMM研究に関連する高い計算要求に対する主要なコントリビュータを批判的に検証し、Scaling Consistencyを発見し、より小さなモデルやデータセット(最大サイズまで)で行う設計とトレーニングの決定を、より大規模なモデルに効果的に転送することから始める。
これらの知見を活かして,ビデオサンプリング,アーキテクチャ,データ構成,トレーニングスケジュールなど,ビデオLMMのさまざまな側面について検討した。
例えば、トレーニング中のfpsサンプリングは、一様フレームサンプリングと、どの視覚エンコーダがビデオ表現に最適であるかに非常に好適であることを示した。
これらの知見に導かれたApolloは、さまざまなモデルサイズで優れたパフォーマンスを実現するLMMの最先端のファミリーである。
われわれのモデルは、1時間の動画を効率よく知覚でき、Apollo-3Bは、LongVideoBenchの55.1で、既存の7ドルBのモデルよりも優れています。
Apollo-7B は 7B LMM に対して MLVU では 70.9 、 Video-MME では 63.3 である。
関連論文リスト
- A Benchmark for Crime Surveillance Video Analysis with Large Models [22.683394427744616]
監視ビデオにおける異常解析はコンピュータビジョンにおいて重要なトピックである。
近年,マルチモーダル大規模言語モデル (MLLM) は様々な領域においてタスク固有モデルよりも優れている。
UCVLと表記される大規模モデルを用いた犯罪監視ビデオ分析のベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-13T13:38:17Z) - TinyLLaVA-Video: A Simple Framework of Small-scale Large Multimodal Models for Video Understanding [10.92767902813594]
本稿では,TinyLLaVA-Videoという,ビデオシーケンスを簡単な方法で処理するパラメータが4Bを超えないビデオ理解モデルを提案する。
このフレームワークの有効性を実験により検証し、既存の7Bモデルに匹敵する性能を達成する最良のモデルを示す。
コードとトレーニングのレシピは完全にオープンソースで、すべてのコンポーネントとトレーニングデータが公開されている。
論文 参考訳(メタデータ) (2025-01-26T13:10:12Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。