Fugu-MT 論文翻訳(概要): Understanding Long Videos with Multimodal Language Models

論文の概要: Understanding Long Videos with Multimodal Language Models

arxiv url: http://arxiv.org/abs/2403.16998v2
Date: Mon, 11 Nov 2024 17:56:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.547029
Title: Understanding Long Videos with Multimodal Language Models
Title（参考訳）: マルチモーダル言語モデルによるロングビデオの理解
Authors: Kanchana Ranasinghe, Xiang Li, Kumara Kahatapitiya, Michael S. Ryoo,
Abstract要約: LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
参考スコア（独自算出の注目度）: 44.78900245769057
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Large Language Models (LLMs) have allowed recent LLM-based approaches to achieve excellent performance on long-video understanding benchmarks. We investigate how extensive world knowledge and strong reasoning skills of underlying LLMs influence this strong performance. Surprisingly, we discover that LLM-based approaches can yield surprisingly good accuracy on long-video tasks with limited video information, sometimes even with no video specific information. Building on this, we exploring injecting video-specific information into an LLM-based framework. We utilize off-the-shelf vision tools to extract three object-centric information modalities from videos and then leverage natural language as a medium for fusing this information. Our resulting Multimodal Video Understanding (MVU) framework demonstrates state-of-the-art performance across multiple video understanding benchmarks. Strong performance also on robotics domain tasks establish its strong generality. Our code will be released publicly.
Abstract（参考訳）: LLM(Large Language Models)は、LLMベースのアプローチにより、長いビデオ理解ベンチマークで優れたパフォーマンスを実現している。本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。意外なことに、LLMベースのアプローチは、ビデオ情報に制限のある長時間のタスクにおいて、時にはビデオ固有の情報さえも、驚くほど優れた精度が得られることが判明した。これに基づいて,LLMベースのフレームワークにビデオ固有情報を注入することを検討する。市販の視覚ツールを用いて,映像から3つの対象中心情報モダリティを抽出し,その情報を融合する媒体として自然言語を活用する。得られたMVU(Multimodal Video Understanding)フレームワークは,複数のビデオ理解ベンチマークにおいて最先端のパフォーマンスを示す。ロボット分野のタスクにも強いパフォーマンスは、その強い一般性を確立する。私たちのコードは公開されます。

関連論文リスト

VideoSSR: Video Self-Supervised Reinforcement Learning [62.25888935329454]
RLVR(Reinforcement Learning with Verifiable Rewards)は、MLLM(Multimodal Large Language Models)の映像理解能力を大幅に向上させた。ビデオ内のリッチで本質的な情報は、高品質で検証可能なトレーニングデータの自己生成に利用できますか?
論文参考訳（メタデータ） (2025-11-09T08:36:40Z)
An Empirical Study for Representations of Videos in Video Question Answering via MLLMs [4.726627693005334]
マルチモーダルな大言語モデルは近年,ビデオ質問応答において顕著な進歩を遂げている。ビデオ表現がMLLMに最も有効なのか、また、異なるモダリティがタスクの精度と計算効率のバランスをとるのかは、まだ不明である。
論文参考訳（メタデータ） (2025-10-14T09:02:22Z)
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。 InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-01-21T18:59:00Z)
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文参考訳（メタデータ） (2024-12-31T18:56:46Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。 CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-05-06T17:59:45Z)
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2024-04-08T17:59:24Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。