論文の概要: Video Understanding with Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2312.17432v2
- Date: Thu, 4 Jan 2024 03:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:43:53.712581
- Title: Video Understanding with Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルによるビデオ理解:調査
- Authors: Yunlong Tang, Jing Bi, Siting Xu, Luchuan Song, Susan Liang, Teng
Wang, Daoan Zhang, Jie An, Jingyang Lin, Rongyi Zhu, Ali Vosoughi, Chao
Huang, Zeliang Zhang, Feng Zheng, Jianguo Zhang, Ping Luo, Jiebo Luo,
Chenliang Xu
- Abstract要約: 本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。
LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。
さまざまなドメインにまたがるVid-LLMの広範な応用を探求し、実際のビデオ理解の課題において、その顕著なスケーラビリティと汎用性を強調している。
- 参考スコア(独自算出の注目度): 101.91261236334486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the burgeoning growth of online video platforms and the escalating
volume of video content, the demand for proficient video understanding tools
has intensified markedly. Given the remarkable capabilities of Large Language
Models (LLMs) in language and multimodal tasks, this survey provides a detailed
overview of the recent advancements in video understanding harnessing the power
of LLMs (Vid-LLMs). The emergent capabilities of Vid-LLMs are surprisingly
advanced, particularly their ability for open-ended spatial-temporal reasoning
combined with commonsense knowledge, suggesting a promising path for future
video understanding. We examine the unique characteristics and capabilities of
Vid-LLMs, categorizing the approaches into four main types: LLM-based Video
Agents, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, and Hybrid Methods.
Furthermore, this survey presents a comprehensive study of the tasks, datasets,
and evaluation methodologies for Vid-LLMs. Additionally, it explores the
expansive applications of Vid-LLMs across various domains, highlighting their
remarkable scalability and versatility in real-world video understanding
challenges. Finally, it summarizes the limitations of existing Vid-LLMs and
outlines directions for future research. For more information, readers are
recommended to visit the repository at
https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding.
- Abstract(参考訳): オンラインビデオプラットフォームの急成長とビデオコンテンツの増大に伴い、熟練したビデオ理解ツールの需要が著しく高まっている。
言語およびマルチモーダルタスクにおけるLLM(Large Language Models)の顕著な機能を考えると、この調査はLLM(Vid-LLMs)のパワーを利用した映像理解の最近の進歩の概要を提供する。
Vid-LLMの創発的能力は驚くほど進歩しており、特に空間的空間的推論と常識的知識が組み合わさり、将来的なビデオ理解の道のりを示唆している。
我々は、vid-llmsのユニークな特徴と能力を調べ、そのアプローチをllmベースのビデオエージェント、vid-llmsプリトレーニング、vid-llms命令チューニング、ハイブリッド手法の4つのタイプに分類した。
さらに,Vid-LLMのタスク,データセット,評価手法を包括的に検討した。
さらに、さまざまなドメインにまたがるVid-LLMの広範な応用を探求し、実際のビデオ理解の課題において、その顕著なスケーラビリティと汎用性を強調している。
最後に、既存のVid-LLMの限界を要約し、今後の研究の方向性を概説する。
詳細については、https://github.com/yunlong10/Awesome-LLMs-for-Video-Understandingのリポジトリを参照してほしい。
関連論文リスト
- LLMs Meet Long Video: Advancing Long Video Comprehension with An
Interactive Visual Adapter in LLMs [24.79384819644494]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - LifelongMemory: Leveraging LLMs for Answering Queries in Egocentric
Videos [17.001453726107467]
エゴセントリックビデオ自然言語クエリ(NLQ)タスクは、エゴセントリックビデオ内の時間ウィンドウをローカライズする。
本稿では、複数の事前学習モデルを用いて、広範囲なエゴセントリックなビデオコンテンツからの問い合わせに応答する新しいフレームワークであるLifelongMemoryを紹介する。
実験により,本手法は既存の教師付きエンドツーエンド学習手法と競合する性能を示す。
論文 参考訳(メタデータ) (2023-12-07T19:19:25Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - GPT4Video: A Unified Multimodal Large Language Model for
lnstruction-Followed Understanding and Safety-Aware Generation [103.56612788682973]
GPT4Videoは、ビデオ理解と生成の両方の能力で大規模言語モデルを強化する統一されたマルチモデルフレームワークである。
具体的には、安定拡散生成モデルと統合された命令追従型アプローチを開発し、映像生成シナリオを効果的かつ安全に扱うことを実証した。
論文 参考訳(メタデータ) (2023-11-25T04:05:59Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。