論文の概要: Understanding Long Videos in One Multimodal Language Model Pass
- arxiv url: http://arxiv.org/abs/2403.16998v1
- Date: Mon, 25 Mar 2024 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:15:04.184343
- Title: Understanding Long Videos in One Multimodal Language Model Pass
- Title(参考訳): 1つのマルチモーダル言語モデルパスにおけるロングビデオの理解
- Authors: Kanchana Ranasinghe, Xiang Li, Kumara Kahatapitiya, Michael S. Ryoo,
- Abstract要約: LLM(Large Language Models)は、世界の知識を強く認識することで知られる。
自己回帰 LLM における高速な推論を実現する手法である Likelihood Selection を提案する。
得られたMultimodal Video Understandingフレームワークは、長ビデオおよびきめ細かいアクション認識ベンチマークにおける最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 44.78900245769057
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs), known to contain a strong awareness of world knowledge, have allowed recent approaches to achieve excellent performance on Long-Video Understanding benchmarks, but at high inference costs. In this work, we first propose Likelihood Selection, a simple technique that unlocks faster inference in autoregressive LLMs for multiple-choice tasks common in long-video benchmarks. In addition to faster inference, we discover the resulting models to yield surprisingly good accuracy on long-video tasks, even with no video specific information. Building on this, we inject video-specific object-centric information extracted from off-the-shelf pre-trained models and utilize natural language as a medium for information fusion. Our resulting Multimodal Video Understanding (MVU) framework demonstrates state-of-the-art performance across long-video and fine-grained action recognition benchmarks. Code available at: https://github.com/kahnchana/mvu
- Abstract(参考訳): LLM(Large Language Models)は,Long-Video Understandingベンチマークにおいて,高い推論コストで優れたパフォーマンスを実現するために,近年のアプローチを実現している。
本研究で提案するLikelihood Selectionは,長時間ビデオベンチマークに共通する複数選択タスクに対して,自己回帰型LLMにおける高速な推論を解放するシンプルな手法である。
より高速な推論に加えて、結果のモデルがビデオ特有の情報のない長いビデオのタスクに対して驚くほど正確な精度が得られることを発見した。
そこで本研究では,市販の事前学習モデルから抽出したビデオ固有のオブジェクト中心情報を注入し,自然言語を情報融合の媒体として利用する。
我々のMultimodal Video Understanding (MVU)フレームワークは、長ビデオおよびきめ細かいアクション認識ベンチマークにまたがって最先端のパフォーマンスを示す。
コード https://github.com/kahnchana/mvu
関連論文リスト
- Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。
我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文 参考訳(メタデータ) (2024-06-12T09:36:52Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。