論文の概要: Wolf: Captioning Everything with a World Summarization Framework
- arxiv url: http://arxiv.org/abs/2407.18908v1
- Date: Fri, 26 Jul 2024 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 12:39:55.405836
- Title: Wolf: Captioning Everything with a World Summarization Framework
- Title(参考訳): Wolf: World Summarization Frameworkですべてをカプセル化
- Authors: Boyi Li, Ligeng Zhu, Ran Tian, Shuhan Tan, Yuxiao Chen, Yao Lu, Yin Cui, Sushant Veer, Max Ehrlich, Jonah Philion, Xinshuo Weng, Fuzhao Xue, Andrew Tao, Ming-Yu Liu, Sanja Fidler, Boris Ivanovic, Trevor Darrell, Jitendra Malik, Song Han, Marco Pavone,
- Abstract要約: Wolfは、Mix-of-expertsアプローチを採用した自動キャプションフレームワークである。
我々のフレームワークは様々なレベルの情報を取り込み、それらを効率的に要約する。
Wolfは最先端のアプローチに比べてキャプション性能が優れていることを示す。
- 参考スコア(独自算出の注目度): 149.03339991072514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Wolf, a WOrLd summarization Framework for accurate video captioning. Wolf is an automated captioning framework that adopts a mixture-of-experts approach, leveraging complementary strengths of Vision Language Models (VLMs). By utilizing both image and video models, our framework captures different levels of information and summarizes them efficiently. Our approach can be applied to enhance video understanding, auto-labeling, and captioning. To evaluate caption quality, we introduce CapScore, an LLM-based metric to assess the similarity and quality of generated captions compared to the ground truth captions. We further build four human-annotated datasets in three domains: autonomous driving, general scenes, and robotics, to facilitate comprehensive comparisons. We show that Wolf achieves superior captioning performance compared to state-of-the-art approaches from the research community (VILA1.5, CogAgent) and commercial solutions (Gemini-Pro-1.5, GPT-4V). For instance, in comparison with GPT-4V, Wolf improves CapScore both quality-wise by 55.6% and similarity-wise by 77.4% on challenging driving videos. Finally, we establish a benchmark for video captioning and introduce a leaderboard, aiming to accelerate advancements in video understanding, captioning, and data alignment. Leaderboard: https://wolfv0.github.io/leaderboard.html.
- Abstract(参考訳): We propose Wolf, a WOrLd summarization Framework for accurate video casting。
Wolfは自動キャプションフレームワークで、Vision Language Models (VLM)の相補的な強みを活用して、専門家の混在したアプローチを採用している。
画像モデルとビデオモデルの両方を利用することで,異なるレベルの情報を収集し,効率的に要約する。
本手法は,映像理解,自動ラベル付け,キャプションの強化に有効である。
キャプションの品質を評価するために,LLMベースの指標であるCapScoreを導入する。
さらに、包括的な比較を容易にするために、自律運転、一般的なシーン、ロボット工学という3つの領域に、人間による注釈付きデータセットを4つ構築します。
研究コミュニティ (VILA1.5, CogAgent) や商用ソリューション (Gemini-Pro-1.5, GPT-4V) の最先端手法と比較して, Wolf のキャプション性能は優れていた。
例えば、GPT-4Vと比較して、WolfはCapScoreの品質を55.6%改善し、類似度を77.4%改善した。
最後に、ビデオキャプションのベンチマークを確立し、ビデオ理解、キャプション、データのアライメントの進歩を加速することを目的としたリーダーボードを導入する。
リーダーボード:https://wolfv0.github.io/ Leaderboard.html
関連論文リスト
- AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation [34.45033554641476]
視覚的コンテンツの自動キャプション手法は、詳細の欠如、幻覚内容の欠如、後続の指示不足などの課題に直面している。
フレキシブルなトレーニングフリーパイプラインであるVisualFactChecker(VFC)を提案し、2次元画像と3次元オブジェクトの両方に対して高忠実かつ詳細なキャプションを生成する。
VFCは、1)画像からテキストへのキャプションモデルが複数の初期キャプションを提案する提案、2)大規模言語モデル(LLM)がオブジェクト検出やVQAモデルなどのツールを使用して提案されたキャプションをファクトチェックする検証の3段階で構成されている。
論文 参考訳(メタデータ) (2024-04-30T17:55:27Z) - ViLA: Efficient Video-Language Alignment for Video Question Answering [22.972518862771697]
我々のViLAネットワークは、効率的なフレームサンプリングと効果的なクロスモーダルアライメントの両方に対処する。
我々のViLAネットワークは、ビデオ質問応答ベンチマークにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-12-13T18:58:15Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。