論文の概要: Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos
- arxiv url: http://arxiv.org/abs/2410.02763v1
- Date: Thu, 3 Oct 2024 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 06:04:22.253849
- Title: Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos
- Title(参考訳): バイノグラウンド:短いビデオで高精細なテンポラル推論によるLMMの精査
- Authors: Jianrui Zhang, Mu Cai, Yong Jae Lee,
- Abstract要約: 我々は,1000対の短いビデオキャプチャと自然なビデオキャプチャのペアを含む時間的対実的LMM評価ベンチマークであるVinogroundを紹介した。
既存のLMMは、異なる動作とオブジェクト変換の時間的差異を区別するのに苦労していることを示す。
すべてのオープンソースマルチモーダルモデルとCLIPベースのモデルは、かなりパフォーマンスが悪く、大半がランダムな確率性能を生み出している。
- 参考スコア(独自算出の注目度): 30.72753471355853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been growing sentiment recently that modern large multimodal models (LMMs) have addressed most of the key challenges related to short video comprehension. As a result, both academia and industry are gradually shifting their attention towards the more complex challenges posed by understanding long-form videos. However, is this really the case? Our studies indicate that LMMs still lack many fundamental reasoning capabilities even when dealing with short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation benchmark encompassing 1000 short and natural video-caption pairs. We demonstrate that existing LMMs severely struggle to distinguish temporal differences between different actions and object transformations. For example, the best model GPT-4o only obtains ~50% on our text and video scores, showing a large gap compared to the human baseline of ~90%. All open-source multimodal models and CLIP-based models perform much worse, producing mostly random chance performance. Through this work, we shed light onto the fact that temporal reasoning in short videos is a problem yet to be fully solved. The dataset and evaluation code are available at https://vinoground.github.io.
- Abstract(参考訳): 近年,現代の大規模マルチモーダルモデル (LMM) が,ショートビデオ理解に関わる重要な課題の多くに対処している,という感情が高まっている。
その結果、学術と産業の両方が、長いビデオを理解することによって生じるより複雑な課題に徐々に注意を向けている。
しかし、本当にそうだろうか?
我々の研究は、短いビデオであってもLMMには根本的な推論能力が欠けていることを示唆している。
我々は,1000対の短いビデオキャプチャと自然なビデオキャプチャのペアを含む時間的対実的LMM評価ベンチマークであるVinogroundを紹介した。
既存のLMMは、異なる動作とオブジェクト変換の時間的差異を区別するのに苦労していることを示す。
例えば、最高のモデルであるGPT-4oは、私たちのテキストとビデオスコアの50%しか取得できません。
すべてのオープンソースマルチモーダルモデルとCLIPベースのモデルは、かなりパフォーマンスが悪く、大半がランダムな確率性能を生み出している。
この研究を通じて、短いビデオにおける時間的推論がまだ完全に解決されていない問題であるという事実に光を当てた。
データセットと評価コードはhttps://vinoground.github.io.comで公開されている。
関連論文リスト
- Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文 参考訳(メタデータ) (2024-09-30T07:25:16Z) - VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。
本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。
分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。
しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文 参考訳(メタデータ) (2024-08-08T05:14:07Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。
我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。
我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文 参考訳(メタデータ) (2024-03-20T11:05:07Z) - TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-01T12:02:19Z) - GlitchBench: Can large multimodal models detect video game glitches? [6.817358575629576]
GlitchBenchは、ビデオゲームの品質保証タスクから派生した新しいベンチマークである。
当社のベンチマークは、ビデオゲームの異常なシナリオや派手なシナリオから収集しています。
我々はGlitchBenchが最先端のLMMに新たな課題をもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-08T18:14:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。