論文の概要: Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge
- arxiv url: http://arxiv.org/abs/2402.16050v2
- Date: Thu, 03 Oct 2024 09:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:52:54.422431
- Title: Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge
- Title(参考訳): 時間的接地橋を用いた多モーダル大言語モデルの効率的な時間外挿
- Authors: Yuxuan Wang, Yueqian Wang, Pengfei Wu, Jianxin Liang, Dongyan Zhao, Yang Liu, Zilong Zheng,
- Abstract要約: 時間的接地機能を備えたMLLMをブートストラップする新しいフレームワークである時間的接地橋(TGB)について紹介する。
7つのビデオベンチマークでTGBを検証し,従来のMLLMと比較して大幅な性能向上を示した。
4フレームのシーケンスをトレーニングした本モデルでは,性能を犠牲にすることなく,最大16のシーケンスを効果的に処理する。
- 参考スコア(独自算出の注目度): 47.750073410717604
- License:
- Abstract: Despite progress in multimodal large language models (MLLMs), the challenge of interpreting long-form videos in response to linguistic queries persists, largely due to the inefficiency in temporal grounding and limited pre-trained context window size. In this work, we introduce Temporal Grounding Bridge (TGB), a novel framework that bootstraps MLLMs with advanced temporal grounding capabilities and broadens their contextual scope. Our framework significantly enhances the temporal capabilities of current MLLMs through three key innovations: an efficient multi-span temporal grounding algorithm applied to low-dimension temporal features projected from flow; a multimodal length extrapolation training paradigm that utilizes low-dimension temporal features to extend the training context window size; and a bootstrapping framework that bridges our model with pluggable MLLMs without requiring annotation. We validate TGB across seven video benchmarks and demonstrate substantial performance improvements compared with prior MLLMs. Notably, our model, initially trained on sequences of four frames, effectively handles sequences up to 16 longer without sacrificing performance, highlighting its scalability and effectiveness in real-world applications. Our code is publicly available at https://github.com/bigai-nlco/VideoTGB
- Abstract(参考訳): MLLM(Multimodal large language model)の進歩にもかかわらず、言語クエリーに対する長文ビデオの解釈の課題は、時間的グラウンドリングの非効率性や、事前訓練済みのコンテキストウィンドウサイズが制限されているため、継続する。
本研究では,時間的接地機能を備えたMLLMをブートストラップし,そのコンテキスト範囲を広げる新しいフレームワークである時間的接地橋(TGB)を紹介する。
我々のフレームワークは,フローから投影される低次元の時間的特徴に適応する効率的なマルチスパン時間的グラウンドアルゴリズム,低次元の時間的特徴を利用してトレーニングコンテキストのウィンドウサイズを拡大するマルチモーダル長外挿訓練パラダイム,アノテーションを必要とせずにモデルにプラグイン可能なMLLMをブリッジするブートストラップフレームワーク,という3つの重要な革新を通じて,現在のMLLMの時間的能力を大幅に向上させる。
7つのビデオベンチマークでTGBを検証し,従来のMLLMと比較して大幅な性能向上を示した。
特に,4フレームのシーケンスをトレーニングした本モデルでは,性能を犠牲にすることなく,最大16のシーケンスを効果的に処理し,実世界のアプリケーションにおけるスケーラビリティと有効性を強調した。
私たちのコードはhttps://github.com/bigai-nlco/VideoTGBで公開されています。
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [49.407311947143825]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
また,Mono-InternVLの視覚能力,すなわち内因性視覚前訓練(EViP)を最大化するための革新的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。