論文の概要: InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling
- arxiv url: http://arxiv.org/abs/2501.12386v2
- Date: Wed, 22 Jan 2025 12:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:35.525762
- Title: InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling
- Title(参考訳): InternVideo2.5:Long and Rich Context ModelingによるビデオMLLMの強化
- Authors: Yi Wang, Xinhao Li, Ziang Yan, Yinan He, Jiashuo Yu, Xiangyu Zeng, Chenting Wang, Changlian Ma, Haian Huang, Jianfei Gao, Min Dou, Kai Chen, Wenhai Wang, Yu Qiao, Yali Wang, Limin Wang,
- Abstract要約: 本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 56.130911402831906
- License:
- Abstract: This paper aims to improve the performance of video multimodal large language models (MLLM) via long and rich context (LRC) modeling. As a result, we develop a new version of InternVideo2.5 with a focus on enhancing the original MLLMs' ability to perceive fine-grained details and capture long-form temporal structure in videos. Specifically, our approach incorporates dense vision task annotations into MLLMs using direct preference optimization and develops compact spatiotemporal representations through adaptive hierarchical token compression. Experimental results demonstrate this unique design of LRC greatly improves the results of video MLLM in mainstream video understanding benchmarks (short & long), enabling the MLLM to memorize significantly longer video inputs (at least 6x longer than the original), and master specialized vision capabilities like object tracking and segmentation. Our work highlights the importance of multimodal context richness (length and fineness) in empowering MLLM's innate abilites (focus and memory), providing new insights for future research on video MLLM. Code and models are available at https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
- Abstract(参考訳): 本稿では,LRCモデリングによるビデオマルチモーダル大言語モデル(MLLM)の性能向上を目的とする。
その結果,ビデオ中の微細な細部を知覚し,長時間の時間構造を捉えたオリジナルMLLMの能力向上に焦点をあてたInternVideo2.5の新バージョンを開発した。
具体的には、直接選好最適化を用いて、高密度視覚タスクアノテーションをMLLMに組み込み、適応的階層的トークン圧縮により、コンパクトな時空間表現を開発する。
実験により、このLCCのユニークな設計は、ビデオ理解ベンチマーク(ショート&ロング)におけるビデオMLLMの結果を大幅に改善し、MLLMはビデオ入力をかなり長く記憶し(少なくともオリジナルより6倍長く)、オブジェクト追跡やセグメンテーションのような専門的な視覚能力を持つことを示した。
本研究は,MLLMの生来のアビライト(焦点と記憶)の強化におけるマルチモーダルコンテキストのリッチネス(長さと微妙さ)の重要性を強調し,今後のビデオMLLM研究への新たな洞察を提供する。
コードとモデルはhttps://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5で公開されている。
関連論文リスト
- TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning [42.928144657587325]
本稿では,従来のショートフォームビデオMLLMを長大なビデオ理解に適用するための新デザインであるTimeSuiteを提案する。
TimeSuiteは、ショートフォームMLLMの長いビデオ理解能力を向上するための、成功したソリューションを提供する。
さらに,9つのタスクと349kの高品質な接地アノテーションからなる総合的な接地中心の命令データセットであるTimeProを紹介する。
論文 参考訳(メタデータ) (2024-10-25T17:19:55Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。
本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。
得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-25T17:59:09Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。