論文の概要: Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model
- arxiv url: http://arxiv.org/abs/2406.10484v1
- Date: Sat, 15 Jun 2024 03:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:12:44.321386
- Title: Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model
- Title(参考訳): 生ビデオを超えて: 大きなマルチモーダルモデルで編集されたビデオを理解する
- Authors: Lu Xu, Sijie Zhu, Chunyuan Li, Chia-Wen Kuo, Fan Chen, Xinyao Wang, Guang Chen, Dawei Du, Ye Yuan, Longyin Wen,
- Abstract要約: 本稿では,人気のショートビデオプラットフォームであるtextiti.e.,TikTokで動画を編集するためのベンチマークを構築し,エフェクト,面白い,ミーム,ゲームをカバーする。
オープンソースビデオのLMMのほとんどはベンチマークでは不十分であり、ソーシャルメディア上の編集されたショートビデオと通常の生ビデオの間に大きなドメインギャップがあることを示唆している。
LMMの一般化能力を向上させるため,Panda-70M/WebVid生ビデオとTikTok/CapCut編集ビデオの両方に基づいて,提案したベンチマークのトレーニングセットを収集した。
- 参考スコア(独自算出の注目度): 62.38322742493649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emerging video LMMs (Large Multimodal Models) have achieved significant improvements on generic video understanding in the form of VQA (Visual Question Answering), where the raw videos are captured by cameras. However, a large portion of videos in real-world applications are edited videos, \textit{e.g.}, users usually cut and add effects/modifications to the raw video before publishing it on social media platforms. The edited videos usually have high view counts but they are not covered in existing benchmarks of video LMMs, \textit{i.e.}, ActivityNet-QA, or VideoChatGPT benchmark. In this paper, we leverage the edited videos on a popular short video platform, \textit{i.e.}, TikTok, and build a video VQA benchmark (named EditVid-QA) covering four typical editing categories, i.e., effect, funny, meme, and game. Funny and meme videos benchmark nuanced understanding and high-level reasoning, while effect and game evaluate the understanding capability of artificial design. Most of the open-source video LMMs perform poorly on the EditVid-QA benchmark, indicating a huge domain gap between edited short videos on social media and regular raw videos. To improve the generalization ability of LMMs, we collect a training set for the proposed benchmark based on both Panda-70M/WebVid raw videos and small-scale TikTok/CapCut edited videos, which boosts the performance on the proposed EditVid-QA benchmark, indicating the effectiveness of high-quality training data. We also identified a serious issue in the existing evaluation protocol using the GPT-3.5 judge, namely a "sorry" attack, where a sorry-style naive answer can achieve an extremely high rating from the GPT judge, e.g., over 4.3 for correctness score on VideoChatGPT evaluation protocol. To avoid the "sorry" attacks, we evaluate results with GPT-4 judge and keyword filtering. The datasets will be released for academic purposes only.
- Abstract(参考訳): 新たなビデオLMM (Large Multimodal Models) は,VQA (Visual Question Answering) という形で一般的なビデオ理解において,カメラによって生映像をキャプチャする,大幅な改善を実現している。
しかし、現実世界のアプリケーションにおけるビデオの大部分は、編集されたビデオである‘textit{e g } で、ユーザーは通常、ソーシャルメディアプラットフォームに公開する前に、生のビデオにエフェクトや修正を加える。
編集されたビデオは通常、高い視聴数を持つが、既存のビデオLMM、 \textit{i.e.}、ActivityNet-QA、VideoChatGPTベンチマークではカバーされない。
本稿では,人気のショートビデオプラットフォームである‘textit{i.e.},TikTok’の編集ビデオを活用し,エフェクト,面白い,ミーム,ゲームという4つの典型的な編集カテゴリをカバーするビデオVQAベンチマーク(EditVid-QA)を構築する。
ファニービデオとミームビデオは、曖昧な理解と高レベルの推論をベンチマークし、エフェクトとゲームは人工デザインの理解能力を評価する。
オープンソースビデオのLMMのほとんどはEditVid-QAベンチマークでは不十分で、ソーシャルメディア上の編集されたショートビデオと通常の生ビデオの間に大きなドメインギャップがあることを示している。
Panda-70M/WebVid生ビデオとTikTok/CapCut編集ビデオの両方に基づいて,LMMの一般化能力を向上させるため,提案したEditVid-QAベンチマークの性能を高め,高品質なトレーニングデータの有効性を示す。
また, GPT-3.5 判定器を用いた既存の評価プロトコルの深刻な問題,すなわち「sorry」攻撃では, VideoChatGPT 評価プロトコルの正確性スコアが4.3以上で GPT 判定器から極めて高い評価が得られる。
この攻撃を避けるため,GPT-4判定とキーワードフィルタリングによる評価を行った。
データセットは学術目的でのみリリースされる。
関連論文リスト
- Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、詳細で密度が高く、スクリプト風のキャプションがある。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Step Differences in Instructional Video [34.551572600535565]
本論文では,HowTo100Mから一対の動画を含む視覚的インストラクション・チューニングデータを生成する手法を提案する。
次に、ビデオ条件付き言語モデルをトレーニングして、複数の生のビデオに共同で理由付けします。
本モデルでは,ビデオペアとランキングビデオの違いを識別し,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-24T21:49:59Z) - VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - PG-Video-LLaVA: Pixel Grounding Large Video-Language Models [52.83065081926238]
PG-Video-LLaVA は画素レベルのグラウンド機能を持つ最初の LMM であり,映像内容の理解を深めるためにテキストに書き起こして音声キューを統合する。
我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。
論文 参考訳(メタデータ) (2023-11-22T14:48:30Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - VideoMix: Rethinking Data Augmentation for Video Classification [29.923635550986997]
最新のビデオアクション分類器は、しばしばオーバーフィットに苦しむ。
オーバーフィッティング問題に対処するための最近のデータ拡張戦略が報告されている。
VideoMixは、モデルがオブジェクトやシーンのバイアスを越えて学習し、アクション認識のためのより堅牢な手がかりを抽出する。
論文 参考訳(メタデータ) (2020-12-07T05:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。