論文の概要: Video Understanding with Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2312.17432v2
- Date: Thu, 4 Jan 2024 03:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:43:53.712581
- Title: Video Understanding with Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルによるビデオ理解:調査
- Authors: Yunlong Tang, Jing Bi, Siting Xu, Luchuan Song, Susan Liang, Teng
Wang, Daoan Zhang, Jie An, Jingyang Lin, Rongyi Zhu, Ali Vosoughi, Chao
Huang, Zeliang Zhang, Feng Zheng, Jianguo Zhang, Ping Luo, Jiebo Luo,
Chenliang Xu
- Abstract要約: 本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。
LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。
さまざまなドメインにまたがるVid-LLMの広範な応用を探求し、実際のビデオ理解の課題において、その顕著なスケーラビリティと汎用性を強調している。
- 参考スコア(独自算出の注目度): 101.91261236334486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the burgeoning growth of online video platforms and the escalating
volume of video content, the demand for proficient video understanding tools
has intensified markedly. Given the remarkable capabilities of Large Language
Models (LLMs) in language and multimodal tasks, this survey provides a detailed
overview of the recent advancements in video understanding harnessing the power
of LLMs (Vid-LLMs). The emergent capabilities of Vid-LLMs are surprisingly
advanced, particularly their ability for open-ended spatial-temporal reasoning
combined with commonsense knowledge, suggesting a promising path for future
video understanding. We examine the unique characteristics and capabilities of
Vid-LLMs, categorizing the approaches into four main types: LLM-based Video
Agents, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, and Hybrid Methods.
Furthermore, this survey presents a comprehensive study of the tasks, datasets,
and evaluation methodologies for Vid-LLMs. Additionally, it explores the
expansive applications of Vid-LLMs across various domains, highlighting their
remarkable scalability and versatility in real-world video understanding
challenges. Finally, it summarizes the limitations of existing Vid-LLMs and
outlines directions for future research. For more information, readers are
recommended to visit the repository at
https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding.
- Abstract(参考訳): オンラインビデオプラットフォームの急成長とビデオコンテンツの増大に伴い、熟練したビデオ理解ツールの需要が著しく高まっている。
言語およびマルチモーダルタスクにおけるLLM(Large Language Models)の顕著な機能を考えると、この調査はLLM(Vid-LLMs)のパワーを利用した映像理解の最近の進歩の概要を提供する。
Vid-LLMの創発的能力は驚くほど進歩しており、特に空間的空間的推論と常識的知識が組み合わさり、将来的なビデオ理解の道のりを示唆している。
我々は、vid-llmsのユニークな特徴と能力を調べ、そのアプローチをllmベースのビデオエージェント、vid-llmsプリトレーニング、vid-llms命令チューニング、ハイブリッド手法の4つのタイプに分類した。
さらに,Vid-LLMのタスク,データセット,評価手法を包括的に検討した。
さらに、さまざまなドメインにまたがるVid-LLMの広範な応用を探求し、実際のビデオ理解の課題において、その顕著なスケーラビリティと汎用性を強調している。
最後に、既存のVid-LLMの限界を要約し、今後の研究の方向性を概説する。
詳細については、https://github.com/yunlong10/Awesome-LLMs-for-Video-Understandingのリポジトリを参照してほしい。
関連論文リスト
- Harnessing LLMs for Automated Video Content Analysis: An Exploratory Workflow of Short Videos on Depression [8.640838598568605]
我々は,Large Language Models (LLMs) を用いたマルチモーダルコンテンツ分析の新しいワークフローに従って,ケーススタディを実施している。
LLMのビデオアノテーション機能をテストするために,うつ病に関する25の短いビデオから抽出した203を解析した。
論文 参考訳(メタデータ) (2024-06-27T21:03:56Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。
画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。
本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。
得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-25T17:59:09Z) - LLM4VG: Large Language Models Evaluation for Video Grounding [39.40610479454726]
本稿では,ビデオグラウンド処理における異なるLLMの性能を体系的に評価する。
本稿では,VGの命令と異なる種類のジェネレータからの記述を統合するためのプロンプト手法を提案する。
実験結果から,既存のVidLLMはビデオグラウンディング性能の達成にはまだ程遠いが,これらのモデルをさらに微調整するためには,より時間的なビデオタスクを含めるべきである,という結論が得られた。
論文 参考訳(メタデータ) (2023-12-21T08:15:02Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。