論文の概要: Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding
- arxiv url: http://arxiv.org/abs/2501.07888v3
- Date: Fri, 24 Jan 2025 05:16:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:55:10.176899
- Title: Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding
- Title(参考訳): Tarsier2: 詳細なビデオ記述から総合的なビデオ理解まで、大規模な視覚言語モデルの改善
- Authors: Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin,
- Abstract要約: Tarsier2は、詳細なビデオ記述を生成するために設計された大型の視覚言語モデル(LVLM)である。
Tarsier2-7B は GPT-4o や Gemini 1.5 Pro など主要なプロプライエタリモデルより一貫して優れていた。
- 参考スコア(独自算出の注目度): 6.82366033827613
- License:
- Abstract: We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM) designed for generating detailed and accurate video descriptions, while also exhibiting superior general video understanding capabilities. Tarsier2 achieves significant advancements through three key upgrades: (1) Scaling pre-training data from 11M to 40M video-text pairs, enriching both volume and diversity; (2) Performing fine-grained temporal alignment during supervised fine-tuning; (3) Using model-based sampling to automatically construct preference data and applying DPO training for optimization. Extensive experiments show that Tarsier2-7B consistently outperforms leading proprietary models, including GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K benchmark, Tarsier2-7B improves F1 by 2.8% over GPT-4o and 5.8% over Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6% performance advantage over GPT-4o and +24.9% over Gemini-1.5-Pro. Tarsier2-7B also sets new state-of-the-art results across 15 public benchmarks, spanning tasks such as video question-answering, video grounding, hallucination test, and embodied question-answering, demonstrating its versatility as a robust generalist vision-language model.
- Abstract(参考訳): 本稿では,高精細かつ正確な映像記述を生成するために設計された,最先端の大規模視覚言語モデル(LVLM)であるTarsier2を紹介する。
Tarsier2 は,(1) 1M から 40M までの事前学習データをスケールアップし,ボリュームと多様性を両立させる,(2) 教師付き微調整中に微粒な時間的アライメントを行う,(3) モデルベースサンプリングを用いて好みデータを自動的に構築し,DPO トレーニングを最適化する,という3つの重要なアップグレードによって,大幅な進歩を遂げている。
大規模な実験により、Tarsier2-7BはGPT-4oやGemini 1.5 Proを含む主要なプロプライエタリなモデルよりも、詳細なビデオ記述タスクにおいて一貫して優れていたことが示されている。
DREAM-1Kベンチマークでは、Tarsier2-7BはGPT-4oより2.8%、Gemini-1.5-Proより5.8%改善している。
人間によるサイドバイサイド評価では、Tarsier2-7BはGPT-4oより+8.6%、Gemini-1.5-Proより+24.9%の性能上の優位性を示している。
Tarsier2-7Bは15の公開ベンチマークにまたがって、ビデオ質問回答、ビデオグラウンド、幻覚検査、具体的質問回答といったタスクにまたがって、その汎用性を堅牢な汎用的な視覚言語モデルとして示している。
関連論文リスト
- T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - Gamified crowd-sourcing of high-quality data for visual fine-tuning [0.9487395978583629]
本稿では,大規模マルチモーダルモデルの視覚的チューニングのための高品質なデータをクラウドソースするフレームワークである Gamified Adversarial Prompting (GAP) を紹介する。
GAPは、データ収集プロセスをエンゲージメントゲームに変換し、モデルの知識のギャップをターゲットとする、きめ細かな、挑戦的な質問と回答を提供するようプレイヤーに動機付ける。
論文 参考訳(メタデータ) (2024-10-05T05:10:29Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models [32.6243916760583]
本稿では,映像理解における2つの中核的能力(外観と動作理解)を測定するための枠組みを提案する。
我々は、モーションベースと外観ベースの両方で堅牢な視覚表現を構築する、新しいビデオ基盤モデルであるTWLV-Iを紹介する。
V-JEPA (ViT-L) に比べて4.6%改善し, UMT (ViT-L) よりも7.7%改善した。
論文 参考訳(メタデータ) (2024-08-21T03:56:27Z) - Tarsier: Recipes for Training and Evaluating Large Video Description Models [6.338897745432373]
本稿では,大規模ビデオ言語モデルのファミリであるTarsierを紹介した。
厳密に設計された2段階のトレーニング手順により、Tarsierモデルは既存のオープンソースモデルよりもはるかに強力なビデオ記述能力を示す。
ビデオの説明に加えて、Tarsierは汎用的なジェネラリストモデルであることが証明され、9つの公開ベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-06-30T09:21:01Z) - Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。