論文の概要: Tarsier: Recipes for Training and Evaluating Large Video Description Models
- arxiv url: http://arxiv.org/abs/2407.00634v2
- Date: Tue, 24 Sep 2024 04:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 00:59:29.413127
- Title: Tarsier: Recipes for Training and Evaluating Large Video Description Models
- Title(参考訳): Tarsier: 大規模なビデオ記述モデルのトレーニングと評価のための準備
- Authors: Jiawei Wang, Liping Yuan, Yuchen Zhang, Haomiao Sun,
- Abstract要約: 本稿では,大規模ビデオ言語モデルのファミリであるTarsierを紹介した。
厳密に設計された2段階のトレーニング手順により、Tarsierモデルは既存のオープンソースモデルよりもはるかに強力なビデオ記述能力を示す。
ビデオの説明に加えて、Tarsierは汎用的なジェネラリストモデルであることが証明され、9つの公開ベンチマークで新しい最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 6.338897745432373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating fine-grained video descriptions is a fundamental challenge in video understanding. In this work, we introduce Tarsier, a family of large-scale video-language models designed to generate high-quality video descriptions. Tarsier employs CLIP-ViT to encode frames separately and then uses an LLM to model temporal relationships. Despite its simple architecture, we demonstrate that with a meticulously designed two-stage training procedure, the Tarsier models exhibit substantially stronger video description capabilities than any existing open-source model, showing a $+51.4\%$ advantage in human side-by-side evaluation over the strongest model. Additionally, they are comparable to state-of-the-art proprietary models, with a $+12.3\%$ advantage against GPT-4V and a $-6.7\%$ disadvantage against Gemini 1.5 Pro. When upgraded to Tarsier2 by building upon SigLIP and Qwen2-7B, it further improves significantly with a $+4.8\%$ advantage against GPT-4o. Besides video description, Tarsier proves to be a versatile generalist model, achieving new state-of-the-art results across nine public benchmarks, including multi-choice VQA, open-ended VQA, and zero-shot video captioning. Our second contribution is the introduction of a new benchmark -- DREAM-1K (https://tarsier-vlm.github.io/) for evaluating video description models, consisting of a new challenging dataset featuring videos from diverse sources and varying complexity, along with an automatic method specifically designed to assess the quality of fine-grained video descriptions. We make our models and evaluation benchmark publicly available at https://github.com/bytedance/tarsier.
- Abstract(参考訳): きめ細かいビデオ記述を生成することは、ビデオ理解の根本的な課題である。
本稿では,高品質なビデオ記述を生成するために設計された大規模ビデオ言語モデルであるTarsierを紹介する。
TarsierはCLIP-ViTを使用してフレームを個別にエンコードし、LLMを使用して時間的関係をモデル化する。
そのシンプルなアーキテクチャにもかかわらず、厳密に設計された2段階のトレーニング手順により、Tarsierモデルは既存のどのオープンソースモデルよりもはるかに強力な映像記述能力を示し、最強のモデルよりも人間側での評価において+51.4\%$の利点を示す。
さらに、GPT-4Vに対して$+12.3\%、Gemini 1.5 Proに対して$6.7\%のデメリットを持つ、最先端のプロプライエタリモデルに匹敵する。
SigLIPとQwen2-7BをベースとしてTarsier2にアップグレードすると、GPT-4oに対して$4.8\%の利点で大幅に改善される。
ビデオ記述の他に、Tarsierは汎用的なジェネラリストモデルであることが証明されており、マルチチョイスVQA、オープンエンドVQA、ゼロショットビデオキャプションを含む9つの公開ベンチマークで、新しい最先端の結果を達成している。
DREAM-1K(https://tarsier-vlm.github.io/)は、さまざまなソースからのビデオとさまざまな複雑さを特徴とする、新しい挑戦的なデータセットと、きめ細かいビデオ記述の品質を評価するために特別に設計された自動メソッドで構成されています。
モデルと評価ベンチマークをhttps://github.com/bytedance/tarsier.comで公開しています。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models [32.6243916760583]
本稿では,映像理解における2つの中核的能力(外観と動作理解)を測定するための枠組みを提案する。
我々は、モーションベースと外観ベースの両方で堅牢な視覚表現を構築する、新しいビデオ基盤モデルであるTWLV-Iを紹介する。
V-JEPA (ViT-L) に比べて4.6%改善し, UMT (ViT-L) よりも7.7%改善した。
論文 参考訳(メタデータ) (2024-08-21T03:56:27Z) - L4GM: Large 4D Gaussian Reconstruction Model [99.82220378522624]
単視点ビデオ入力からアニメーションオブジェクトを生成する最初の4次元大規模再構成モデルであるL4GMを提案する。
私たちの成功の鍵は、キュレートされたレンダリングされたアニメーションオブジェクトを含む、新しいマルチビュービデオのデータセットです。
論文 参考訳(メタデータ) (2024-06-14T17:51:18Z) - MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens [36.02433030551474]
MiniGPT4-Videoは、ビデオ理解に特化した多モード大言語モデル(LLM)である。
MiniGPT4-videoは、視覚的コンテンツだけでなく、テキストによる会話も含んでいるため、モデルが視覚的コンポーネントとテキストコンポーネントの両方を含むクエリに効果的に答えることができる。
論文 参考訳(メタデータ) (2024-04-04T12:46:01Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation [100.23111948079037]
GPT4Videoは、ビデオ理解と生成の両方の能力で大規模言語モデルを強化する統一されたマルチモデルフレームワークである。
具体的には、安定拡散生成モデルと統合された命令追従型アプローチを開発し、映像生成シナリオを効果的かつ安全に扱うことを実証した。
論文 参考訳(メタデータ) (2023-11-25T04:05:59Z) - VideoCrafter1: Open Diffusion Models for High-Quality Video Generation [97.5767036934979]
高品質ビデオ生成のための2つの拡散モデル、すなわち、テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ(I2V)モデルを導入する。
T2Vモデルは与えられたテキスト入力に基づいてビデオを合成し、I2Vモデルは追加のイメージ入力を含む。
提案したT2Vモデルは,解像度が1024×576$のリアルで映像品質の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-30T13:12:40Z) - Minority-Oriented Vicinity Expansion with Attentive Aggregation for
Video Long-Tailed Recognition [6.673349839900761]
非常に多種多様なトピックが出現する現実世界のビデオボリュームの劇的な増加は、そのカテゴリの観点からも、自然に長い尾の動画配信を形成している。
本稿では,ビデオ長大認識における課題を要約し,その克服方法について考察する。
提案手法は, 大規模ビデオLTとIm Balanced-MiniKinetics200を合成的に誘導し, 最先端の成果を得る。
論文 参考訳(メタデータ) (2022-11-24T08:33:59Z) - A strong baseline for image and video quality assessment [4.73466728067544]
画像と映像の知覚的品質評価のための,シンプルで効果的な統合モデルを提案する。
本モデルでは,バックボーンネットワークから派生したグローバルな特徴を1つだけ適用することで,同等の性能を実現する。
提案したアーキテクチャに基づいて、3つの一般的な実世界のシナリオに対して十分に訓練されたモデルをリリースする。
論文 参考訳(メタデータ) (2021-11-13T12:24:08Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。