Fugu-MT 論文翻訳(概要): Tarsier: Recipes for Training and Evaluating Large Video Description Models

論文の概要: Tarsier: Recipes for Training and Evaluating Large Video Description Models

arxiv url: http://arxiv.org/abs/2407.00634v2
Date: Tue, 24 Sep 2024 04:41:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 00:59:29.413127
Title: Tarsier: Recipes for Training and Evaluating Large Video Description Models
Title（参考訳）: Tarsier: 大規模なビデオ記述モデルのトレーニングと評価のための準備
Authors: Jiawei Wang, Liping Yuan, Yuchen Zhang, Haomiao Sun,
Abstract要約: 本稿では,大規模ビデオ言語モデルのファミリであるTarsierを紹介した。厳密に設計された2段階のトレーニング手順により、Tarsierモデルは既存のオープンソースモデルよりもはるかに強力なビデオ記述能力を示す。ビデオの説明に加えて、Tarsierは汎用的なジェネラリストモデルであることが証明され、9つの公開ベンチマークで新しい最先端の結果が得られた。
参考スコア（独自算出の注目度）: 6.338897745432373
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating fine-grained video descriptions is a fundamental challenge in video understanding. In this work, we introduce Tarsier, a family of large-scale video-language models designed to generate high-quality video descriptions. Tarsier employs CLIP-ViT to encode frames separately and then uses an LLM to model temporal relationships. Despite its simple architecture, we demonstrate that with a meticulously designed two-stage training procedure, the Tarsier models exhibit substantially stronger video description capabilities than any existing open-source model, showing a $+51.4\%$ advantage in human side-by-side evaluation over the strongest model. Additionally, they are comparable to state-of-the-art proprietary models, with a $+12.3\%$ advantage against GPT-4V and a $-6.7\%$ disadvantage against Gemini 1.5 Pro. When upgraded to Tarsier2 by building upon SigLIP and Qwen2-7B, it further improves significantly with a $+4.8\%$ advantage against GPT-4o. Besides video description, Tarsier proves to be a versatile generalist model, achieving new state-of-the-art results across nine public benchmarks, including multi-choice VQA, open-ended VQA, and zero-shot video captioning. Our second contribution is the introduction of a new benchmark -- DREAM-1K (https://tarsier-vlm.github.io/) for evaluating video description models, consisting of a new challenging dataset featuring videos from diverse sources and varying complexity, along with an automatic method specifically designed to assess the quality of fine-grained video descriptions. We make our models and evaluation benchmark publicly available at https://github.com/bytedance/tarsier.
Abstract（参考訳）: きめ細かいビデオ記述を生成することは、ビデオ理解の根本的な課題である。本稿では,高品質なビデオ記述を生成するために設計された大規模ビデオ言語モデルであるTarsierを紹介する。 TarsierはCLIP-ViTを使用してフレームを個別にエンコードし、LLMを使用して時間的関係をモデル化する。そのシンプルなアーキテクチャにもかかわらず、厳密に設計された2段階のトレーニング手順により、Tarsierモデルは既存のどのオープンソースモデルよりもはるかに強力な映像記述能力を示し、最強のモデルよりも人間側での評価において+51.4\%$の利点を示す。さらに、GPT-4Vに対して$+12.3\%、Gemini 1.5 Proに対して$6.7\%のデメリットを持つ、最先端のプロプライエタリモデルに匹敵する。 SigLIPとQwen2-7BをベースとしてTarsier2にアップグレードすると、GPT-4oに対して$4.8\%の利点で大幅に改善される。ビデオ記述の他に、Tarsierは汎用的なジェネラリストモデルであることが証明されており、マルチチョイスVQA、オープンエンドVQA、ゼロショットビデオキャプションを含む9つの公開ベンチマークで、新しい最先端の結果を達成している。 DREAM-1K(https://tarsier-vlm.github.io/)は、さまざまなソースからのビデオとさまざまな複雑さを特徴とする、新しい挑戦的なデータセットと、きめ細かいビデオ記述の品質を評価するために特別に設計された自動メソッドで構成されています。モデルと評価ベンチマークをhttps://github.com/bytedance/tarsier.comで公開しています。

関連論文リスト

GigaVideo-1: Advancing Video Generation via Automatic Feedback with 4 GPU-Hours Fine-Tuning [38.85475786611648]
GigaVideo-1は、人間の監督なしにビデオ生成を効率化する効率的な微調整フレームワークである。我々は、微調整プロセスの2つの重要な側面、すなわちデータと最適化に焦点を当てている。実験によると、GigaVideo-1は、ほぼすべての次元のパフォーマンスを継続的に改善し、平均的な増加率は4つのGPU時間で約4%である。
論文参考訳（メタデータ） (2025-06-12T12:25:37Z)
VideoAds for Fast-Paced Video Understanding: Where Opensource Foundation Models Beat GPT-4o & Gemini-1.5 Pro [24.033789262642777]
広告ビデオ上でMLLMのパフォーマンスをベンチマークするための最初のデータセットであるVideoAdsを紹介する。 VideoAdsは、複雑な時間構造を持つよく計算された広告ビデオで構成されており、テキストに手動で注釈付けされた多様な質問が伴っている。オープンソースのMLLMであるQwen2.5-VL-72Bは、ビデオ広告で73.35%の精度を実現し、GPT-4oとGemini-1.5 Proを上回っている。
論文参考訳（メタデータ） (2025-04-12T17:05:35Z)
Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model [60.171601995737646]
Mobile-VideoGPTはビデオ理解のための効率的なマルチモーダルフレームワークである。軽量なデュアルビジュアルエンコーダ、効率的なプロジェクタ、小型言語モデル(SLM)で構成されている。その結果,Mobile-VideoGPT-0.5Bは最大46トークンを毎秒生成できることがわかった。
論文参考訳（メタデータ） (2025-03-27T17:59:58Z)
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding [70.84791600974337]
ビデオ大言語モデル(LLM)のファミリーであるSlowFast-LLaVA-1.5(SF-LLaVA-1.5)を紹介する。 2ストリームのSlowFastメカニズムを合理化されたトレーニングパイプラインに組み込む。我々は、公開データセットのみを慎重にキュレートしたデータ混合を用いて、共同でビデオイメージトレーニングを行う。
論文参考訳（メタデータ） (2025-03-24T17:59:07Z)
Generative Frame Sampler for Long Video Understanding [69.87425354364542]
本稿では,ビデオLLMと統合されたプラグイン・アンド・プレイモジュールであるGenerative Frame Sampler (GenS)を導入し,映像知覚の効率化を図る。大規模な実験により、GenSは様々なVideoLLMのパフォーマンスを継続的に向上させることが示された。 GenSを装着すると、オープンソースのVideoLLMは、長大なビデオベンチマークで印象的な結果が得られる。
論文参考訳（メタデータ） (2025-03-12T08:16:39Z)
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding [6.82366033827613]
Tarsier2は、詳細なビデオ記述を生成するために設計された大型の視覚言語モデル(LVLM)である。 Tarsier2-7B は GPT-4o や Gemini 1.5 Pro など主要なプロプライエタリモデルより一貫して優れていた。
論文参考訳（メタデータ） (2025-01-14T06:54:39Z)
Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation [71.32108638269517]
我々は、ストーリー指向のベンチマークであるStoryEvalを紹介し、テキスト・トゥ・ビデオ(T2V)モデルのストーリー・コンプリート機能を評価する。 StoryEvalは7つのクラスにまたがる423のプロンプトを備えている。我々は、GPT-4VやLLaVA-OV-Chat-72Bといった高度な視覚言語モデルを用いて、生成されたビデオ内の各イベントの完了を検証する。
論文参考訳（メタデータ） (2024-12-17T23:00:42Z)
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models [13.04745908368858]
本稿では,T2Vモデルによる幻覚映像の大規模テキスト・ビデオベンチマークであるViBeを紹介する。 10個のオープンソースT2Vモデルを用いて,幻覚映像の大規模データセットを開発した。このベンチマークは、入力プロンプトとより正確に一致したビデオを生成する堅牢なT2Vモデルの開発を促進することを目的としている。
論文参考訳（メタデータ） (2024-11-16T19:23:12Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models [32.6243916760583]
本稿では,映像理解における2つの中核的能力(外観と動作理解)を測定するための枠組みを提案する。我々は、モーションベースと外観ベースの両方で堅牢な視覚表現を構築する、新しいビデオ基盤モデルであるTWLV-Iを紹介する。 V-JEPA (ViT-L) に比べて4.6%改善し, UMT (ViT-L) よりも7.7%改善した。
論文参考訳（メタデータ） (2024-08-21T03:56:27Z)
L4GM: Large 4D Gaussian Reconstruction Model [99.82220378522624]
単視点ビデオ入力からアニメーションオブジェクトを生成する最初の4次元大規模再構成モデルであるL4GMを提案する。私たちの成功の鍵は、キュレートされたレンダリングされたアニメーションオブジェクトを含む、新しいマルチビュービデオのデータセットです。
論文参考訳（メタデータ） (2024-06-14T17:51:18Z)
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens [36.02433030551474]
MiniGPT4-Videoは、ビデオ理解に特化した多モード大言語モデル(LLM)である。 MiniGPT4-videoは、視覚的コンテンツだけでなく、テキストによる会話も含んでいるため、モデルが視覚的コンポーネントとテキストコンポーネントの両方を含むクエリに効果的に答えることができる。
論文参考訳（メタデータ） (2024-04-04T12:46:01Z)
Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文参考訳（メタデータ） (2024-01-11T18:59:53Z)
GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation [100.23111948079037]
GPT4Videoは、ビデオ理解と生成の両方の能力で大規模言語モデルを強化する統一されたマルチモデルフレームワークである。具体的には、安定拡散生成モデルと統合された命令追従型アプローチを開発し、映像生成シナリオを効果的かつ安全に扱うことを実証した。
論文参考訳（メタデータ） (2023-11-25T04:05:59Z)
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation [97.5767036934979]
高品質ビデオ生成のための2つの拡散モデル、すなわち、テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ(I2V)モデルを導入する。 T2Vモデルは与えられたテキスト入力に基づいてビデオを合成し、I2Vモデルは追加のイメージ入力を含む。提案したT2Vモデルは,解像度が1024×576$のリアルで映像品質の高いビデオを生成することができる。
論文参考訳（メタデータ） (2023-10-30T13:12:40Z)
Minority-Oriented Vicinity Expansion with Attentive Aggregation for Video Long-Tailed Recognition [6.673349839900761]
非常に多種多様なトピックが出現する現実世界のビデオボリュームの劇的な増加は、そのカテゴリの観点からも、自然に長い尾の動画配信を形成している。本稿では,ビデオ長大認識における課題を要約し,その克服方法について考察する。提案手法は, 大規模ビデオLTとIm Balanced-MiniKinetics200を合成的に誘導し, 最先端の成果を得る。
論文参考訳（メタデータ） (2022-11-24T08:33:59Z)
A strong baseline for image and video quality assessment [4.73466728067544]
画像と映像の知覚的品質評価のための,シンプルで効果的な統合モデルを提案する。本モデルでは,バックボーンネットワークから派生したグローバルな特徴を1つだけ適用することで,同等の性能を実現する。提案したアーキテクチャに基づいて、3つの一般的な実世界のシナリオに対して十分に訓練されたモデルをリリースする。
論文参考訳（メタデータ） (2021-11-13T12:24:08Z)
ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文参考訳（メタデータ） (2021-03-29T15:27:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。