論文の概要: TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler
- arxiv url: http://arxiv.org/abs/2501.15513v2
- Date: Tue, 10 Jun 2025 14:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:39.363825
- Title: TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler
- Title(参考訳): TinyLLaVA-Video: Group Resamplerによるビデオ理解のためのより小さなLMMを目指して
- Authors: Xingjian Zhang, Xi Weng, Yihao Yue, Zhaoxin Fan, Wenjun Wu, Lei Huang,
- Abstract要約: 約3.6Bパラメータを持つ軽量で強力なビデオ理解モデルであるTinyLLaVA-Videoを紹介した。
我々の設計の基盤はビデオレベルのグループ再サンプリングであり、ビデオレベルの視覚トークン数を著しく削減し、制御する新しいメカニズムである。
TinyLLaVA-Videoは例外的な効率を示し、8A100-40GのGPUで1日間のトレーニングしか必要としない。
- 参考スコア(独自算出の注目度): 10.92767902813594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video behavior recognition and scene understanding are fundamental tasks in multimodal intelligence, serving as critical building blocks for numerous real-world applications. Through large multimodal models (LMMs) have achieved remarkable progress in video understanding, most existing open-source models rely on over 7B parameters and require large-scale datasets for training, making them resource-intensive and inaccessible to many researchers. Furthermore, lightweight models face persistent challenges in effectively processing long visual sequences and temporal understanding. In this work, we introduce TinyLLaVA-Video, a lightweight yet powerful video understanding model with approximately 3.6B parameters. The cornerstone of our design is the video-level group resampler, a novel mechanism that significantly reduces and controls the number of visual tokens at the video level. Unlike traditional image-level resampler, our approach effectively mitigates redundancy while enhancing temporal comprehension, leading to improved performance on video-based tasks. In addition, TinyLLaVA-Video demonstrates exceptional efficiency, requiring only one day of training on 8 A100-40G GPUs. It surpasses several existing 7B-parameter models on multiple benchmarks. We believe this work provides a valuable foundation for future research on lightweight video understanding models. The code and weights is available at https://github.com/ZhangXJ199/TinyLLaVA-Video.
- Abstract(参考訳): 映像行動認識とシーン理解はマルチモーダルインテリジェンスにおける基本的なタスクであり、多くの現実世界のアプリケーションにとって重要なビルディングブロックとして機能する。
大規模なマルチモーダルモデル(LMM)はビデオ理解において顕著な進歩を遂げており、既存のオープンソースモデルは7B以上のパラメータに依存しており、訓練には大規模なデータセットを必要とするため、多くの研究者にとってリソース集約的でアクセス不能である。
さらに、軽量モデルは、長い視覚的シーケンスと時間的理解を効果的に処理する上で、永続的な課題に直面している。
本稿では,約3.6Bのパラメータを持つ軽量だが強力なビデオ理解モデルTinyLLaVA-Videoを紹介する。
我々の設計の基盤はビデオレベルのグループ再サンプリングであり、ビデオレベルの視覚トークンの数を著しく削減し、制御する新しいメカニズムである。
従来の画像レベルのリサンプリングとは違って,時間的理解を高めながら冗長性を効果的に軽減し,映像ベースタスクの性能向上につながった。
さらに、TinyLLaVA-Videoは例外的な効率を示し、8A100-40GのGPUで1日間のトレーニングしか必要としない。
複数のベンチマークで既存の7Bパラメータモデルを上回っている。
この研究は、今後の軽量ビデオ理解モデル研究の基盤となると信じている。
コードと重み付けはhttps://github.com/ZhangXJ199/TinyLLaVA-Videoで確認できる。
関連論文リスト
- TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning [7.818698554631196]
我々は,小規模モデルの推論能力の探索は,限られた計算資源を持つ研究者にとって重要な課題であると主張している。
本稿では,小型ビデオ推論モデルTinyLLaVA-Video-R1を提案する。
論文 参考訳(メタデータ) (2025-04-13T16:32:49Z) - Pretrained Image-Text Models are Secretly Video Captioners [38.66202065611397]
画像ベースモデルにより、複数の特殊映像キャプションシステムよりも優れた性能が得られることが判明した。
適応モデルでは,MSRVTTとMSVDでは2位,VATEXでは3位であった。
資源最適化の観点から、このビデオキャプション研究は、モデルスケールの最適化、データ効率の最大化、強化学習の導入の3つの基本的な要素に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-19T01:53:03Z) - Apollo: An Exploration of Video Understanding in Large Multimodal Models [65.06400672040836]
本稿では,大規模マルチモーダルモデルにおいて映像理解を効果的に推進する要因を明らかにする研究について述べる。
われわれのモデルは、1時間の動画を効率よく知覚でき、Apollo-3Bは、LongVideoBenchの55.1で、既存の7ドルBのモデルよりも優れている。
Apollo-7B は 7B LMM に対して MLVU では 70.9 、 Video-MME では 63.3 である。
論文 参考訳(メタデータ) (2024-12-13T18:53:24Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - A strong baseline for image and video quality assessment [4.73466728067544]
画像と映像の知覚的品質評価のための,シンプルで効果的な統合モデルを提案する。
本モデルでは,バックボーンネットワークから派生したグローバルな特徴を1つだけ適用することで,同等の性能を実現する。
提案したアーキテクチャに基づいて、3つの一般的な実世界のシナリオに対して十分に訓練されたモデルをリリースする。
論文 参考訳(メタデータ) (2021-11-13T12:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。