論文の概要: TinyLLaVA-Video: A Simple Framework of Small-scale Large Multimodal Models for Video Understanding
- arxiv url: http://arxiv.org/abs/2501.15513v1
- Date: Sun, 26 Jan 2025 13:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:27.346381
- Title: TinyLLaVA-Video: A Simple Framework of Small-scale Large Multimodal Models for Video Understanding
- Title(参考訳): TinyLLaVA-Video: ビデオ理解のための小型マルチモーダルモデルの簡易フレームワーク
- Authors: Xingjian Zhang, Xi Weng, Yihao Yue, Zhaoxin Fan, Wenjun Wu, Lei Huang,
- Abstract要約: 本稿では,TinyLLaVA-Videoという,ビデオシーケンスを簡単な方法で処理するパラメータが4Bを超えないビデオ理解モデルを提案する。
このフレームワークの有効性を実験により検証し、既存の7Bモデルに匹敵する性能を達成する最良のモデルを示す。
コードとトレーニングのレシピは完全にオープンソースで、すべてのコンポーネントとトレーニングデータが公開されている。
- 参考スコア(独自算出の注目度): 10.92767902813594
- License:
- Abstract: We present the TinyLLaVA-Video, a video understanding model with parameters not exceeding 4B that processes video sequences in a simple manner, without the need for complex architectures, supporting both fps sampling and uniform frame sampling. Our model is characterized by modularity and scalability, allowing training and inference with limited computational resources and enabling users to replace components based on their needs. We validate the effectiveness of this framework through experiments, the best model achieving performance comparable to certain existing 7B models on multiple video understanding benchmarks. The code and training recipes are fully open source, with all components and training data publicly available. We hope this work can serve as a baseline for practitioners exploring small-scale multimodal models for video understanding. It is available at \url{https://github.com/ZhangXJ199/TinyLLaVA-Video}.
- Abstract(参考訳): 我々は、複雑なアーキテクチャを必要とせず、簡単な方法でビデオシーケンスを処理するパラメータが4Bを超えないビデオ理解モデルTinyLLaVA-Videoを紹介し、fpsサンプリングと一様フレームサンプリングの両方をサポートする。
我々のモデルはモジュール性とスケーラビリティを特徴とし、限られた計算資源でトレーニングと推論が可能であり、ユーザーは必要に応じてコンポーネントを置き換えることができる。
複数のビデオ理解ベンチマークにおいて、既存の7Bモデルに匹敵する性能を達成するための最良のモデルである実験を通して、このフレームワークの有効性を検証する。
コードとトレーニングのレシピは完全にオープンソースで、すべてのコンポーネントとトレーニングデータが公開されている。
この研究が、ビデオ理解のための小規模なマルチモーダルモデルを探究する実践者のベースラインとなることを願っている。
これは \url{https://github.com/ZhangXJ199/TinyLLaVA-Video} で利用可能である。
関連論文リスト
- Pretrained Image-Text Models are Secretly Video Captioners [38.66202065611397]
画像ベースモデルにより、複数の特殊映像キャプションシステムよりも優れた性能が得られることが判明した。
適応モデルでは,MSRVTTとMSVDでは2位,VATEXでは3位であった。
資源最適化の観点から、このビデオキャプション研究は、モデルスケールの最適化、データ効率の最大化、強化学習の導入の3つの基本的な要素に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-19T01:53:03Z) - Apollo: An Exploration of Video Understanding in Large Multimodal Models [65.06400672040836]
本稿では,大規模マルチモーダルモデルにおいて映像理解を効果的に推進する要因を明らかにする研究について述べる。
われわれのモデルは、1時間の動画を効率よく知覚でき、Apollo-3Bは、LongVideoBenchの55.1で、既存の7ドルBのモデルよりも優れている。
Apollo-7B は 7B LMM に対して MLVU では 70.9 、 Video-MME では 63.3 である。
論文 参考訳(メタデータ) (2024-12-13T18:53:24Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - A strong baseline for image and video quality assessment [4.73466728067544]
画像と映像の知覚的品質評価のための,シンプルで効果的な統合モデルを提案する。
本モデルでは,バックボーンネットワークから派生したグローバルな特徴を1つだけ適用することで,同等の性能を実現する。
提案したアーキテクチャに基づいて、3つの一般的な実世界のシナリオに対して十分に訓練されたモデルをリリースする。
論文 参考訳(メタデータ) (2021-11-13T12:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。