論文の概要: LinVT: Empower Your Image-level Large Language Model to Understand Videos
- arxiv url: http://arxiv.org/abs/2412.05185v1
- Date: Fri, 06 Dec 2024 17:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:54.237887
- Title: LinVT: Empower Your Image-level Large Language Model to Understand Videos
- Title(参考訳): LinVT:画像レベルの大きな言語モデルにビデオの理解力を与える
- Authors: Lishuai Gao, Yujie Zhong, Yingsen Zeng, Haoxian Tan, Dengjie Li, Zheng Zhao,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクで広く使われている。
我々は、任意の訓練された画像ベースのLCMをビデオLLMに変換するモジュールを提案する。
我々はLinVTをAquila, Blip-3, InternVL2, Mipha, Molmo, Qwen2-VLの6つのビジュアルLLMでベンチマークした。
- 参考スコア(独自算出の注目度): 10.159566131070418
- License:
- Abstract: Large Language Models (LLMs) have been widely used in various tasks, motivating us to develop an LLM-based assistant for videos. Instead of training from scratch, we propose a module to transform arbitrary well-trained image-based LLMs into video-LLMs (after being trained on video data). To better adapt image-LLMs for processing videos, we introduce two design principles: linear transformation to preserve the original visual-language alignment and representative information condensation from redundant video content. Guided by these principles, we propose a plug-and-play Linear Video Tokenizer(LinVT), which enables existing image-LLMs to understand videos. We benchmark LinVT with six recent visual LLMs: Aquila, Blip-3, InternVL2, Mipha, Molmo and Qwen2-VL, showcasing the high compatibility of LinVT. LinVT-based LLMs achieve state-of-the-art performance across various video benchmarks, illustrating the effectiveness of LinVT in multi-modal video understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクで広く使われており、ビデオのためのLLMベースのアシスタントを開発する動機となっている。
スクラッチからトレーニングする代わりに、任意に訓練された画像ベースのLCMをビデオLLMに変換するモジュールを提案する。
ビデオ処理における画像-LLMの適応性を向上するために,元の視覚言語アライメントを維持するための線形変換と,冗長なビデオコンテンツからの代表情報凝縮という2つの設計原理を導入する。
これらの原則に則って,既存の画像LLMで映像の理解を可能にするLinVT(LinVT)を提案する。
我々は、LinVTをAquila, Blip-3, InternVL2, Mipha, Molmo, Qwen2-VLの6つのビジュアルLLMでベンチマークし、LinVTの高互換性を示す。
LinVTベースのLLMは,マルチモーダルビデオ理解におけるLinVTの有効性を実証し,様々なビデオベンチマークにおける最先端性能を実現する。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。
画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video
Question Answering [50.11756459499762]
軽量な視覚言語推論フレームワークLiVLRを提案する。
LiVLRは、まず、グラフベースの視覚と言語のアブリケーションを使用して、多義的な視覚と言語表現を得る。
提案したLiVLRは軽量で、2つのVideoQAベンチマークでパフォーマンス上の優位性を示す。
論文 参考訳(メタデータ) (2021-11-29T14:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。