Fugu-MT 論文翻訳(概要): Video Understanding with Large Language Models: A Survey

論文の概要: Video Understanding with Large Language Models: A Survey

arxiv url: http://arxiv.org/abs/2312.17432v4
Date: Wed, 24 Jul 2024 04:44:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 19:30:34.802813
Title: Video Understanding with Large Language Models: A Survey
Title（参考訳）: 大規模言語モデルによるビデオ理解:サーベイ
Authors: Yunlong Tang, Jing Bi, Siting Xu, Luchuan Song, Susan Liang, Teng Wang, Daoan Zhang, Jie An, Jingyang Lin, Rongyi Zhu, Ali Vosoughi, Chao Huang, Zeliang Zhang, Pinxin Liu, Mingqian Feng, Feng Zheng, Jianguo Zhang, Ping Luo, Jiebo Luo, Chenliang Xu,
Abstract要約: 言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
参考スコア（独自算出の注目度）: 97.29126722004949
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the burgeoning growth of online video platforms and the escalating volume of video content, the demand for proficient video understanding tools has intensified markedly. Given the remarkable capabilities of large language models (LLMs) in language and multimodal tasks, this survey provides a detailed overview of recent advancements in video understanding that harness the power of LLMs (Vid-LLMs). The emergent capabilities of Vid-LLMs are surprisingly advanced, particularly their ability for open-ended multi-granularity (general, temporal, and spatiotemporal) reasoning combined with commonsense knowledge, suggesting a promising path for future video understanding. We examine the unique characteristics and capabilities of Vid-LLMs, categorizing the approaches into three main types: Video Analyzer x LLM, Video Embedder x LLM, and (Analyzer + Embedder) x LLM. Furthermore, we identify five sub-types based on the functions of LLMs in Vid-LLMs: LLM as Summarizer, LLM as Manager, LLM as Text Decoder, LLM as Regressor, and LLM as Hidden Layer. Furthermore, this survey presents a comprehensive study of the tasks, datasets, benchmarks, and evaluation methodologies for Vid-LLMs. Additionally, it explores the expansive applications of Vid-LLMs across various domains, highlighting their remarkable scalability and versatility in real-world video understanding challenges. Finally, it summarizes the limitations of existing Vid-LLMs and outlines directions for future research. For more information, readers are recommended to visit the repository at https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding.
Abstract（参考訳）: オンラインビデオプラットフォームの急成長とビデオコンテンツの増大に伴い、熟練したビデオ理解ツールの需要は激増している。言語およびマルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると、この調査はLLM(Vid-LLMs)のパワーを利用した映像理解の最近の進歩の概要を提供する。 Vid-LLMの創発的能力は驚くほど進歩しており、特に、オープンな多粒度推論(一般、時空間、時空間)とコモンセンスの知識が組み合わさり、将来的なビデオ理解の道のりを示唆している。ビデオアナライザー x LLM, ビデオエンベッドダー x LLM, および (アナライザー + エンベッドダー) x LLM の3つのタイプに分類し, その特徴と機能について検討する。さらに,LLMをSummarizer,LLM as Manager,LLM as Text Decoder,LLM as Regressor,LLM as Hidden Layer の5つのサブタイプを同定した。さらに、この調査では、Vid-LLMのタスク、データセット、ベンチマーク、評価方法論について包括的に研究している。さらに、さまざまなドメインにまたがるVid-LLMの広範な応用を探求し、実際のビデオ理解の課題において、その顕著なスケーラビリティと汎用性を強調している。最後に、既存のVid-LLMの限界を要約し、今後の研究の方向性を概説する。詳細については、https://github.com/yunlong10/Awesome-LLMs-for-Video-Understandingのリポジトリを参照してほしい。

関連論文リスト

VideoSSR: Video Self-Supervised Reinforcement Learning [62.25888935329454]
RLVR(Reinforcement Learning with Verifiable Rewards)は、MLLM(Multimodal Large Language Models)の映像理解能力を大幅に向上させた。ビデオ内のリッチで本質的な情報は、高品質で検証可能なトレーニングデータの自己生成に利用できますか?
論文参考訳（メタデータ） (2025-11-09T08:36:40Z)
A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文参考訳（メタデータ） (2025-08-07T08:52:11Z)
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。 InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-01-21T18:59:00Z)
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文参考訳（メタデータ） (2024-12-31T18:56:46Z)
Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges [15.850548556536538]
大規模言語モデル(LLMs)は、自然言語の理解に精通したディープラーニングモデルのクラスである。これらのモデルの先進的なサブセットであるMultimodal Large Language Models (MLLM)は、複数のデータモダリティを処理および解釈するためにLLM機能を拡張している。本調査は,LLMの最近の進歩を概観する。
論文参考訳（メタデータ） (2024-12-04T11:14:06Z)
Harnessing LLMs for Automated Video Content Analysis: An Exploratory Workflow of Short Videos on Depression [8.640838598568605]
我々は,Large Language Models (LLMs) を用いたマルチモーダルコンテンツ分析の新しいワークフローに従って,ケーススタディを実施している。 LLMのビデオアノテーション機能をテストするために,うつ病に関する25の短いビデオから抽出した203を解析した。
論文参考訳（メタデータ） (2024-06-27T21:03:56Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。 CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-05-06T17:59:45Z)
From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文参考訳（メタデータ） (2024-04-18T02:43:37Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-03-25T17:59:09Z)
LLM4VG: Large Language Models Evaluation for Video Grounding [39.40610479454726]
本稿では,ビデオグラウンド処理における異なるLLMの性能を体系的に評価する。本稿では,VGの命令と異なる種類のジェネレータからの記述を統合するためのプロンプト手法を提案する。実験結果から,既存のVidLLMはビデオグラウンディング性能の達成にはまだ程遠いが,これらのモデルをさらに微調整するためには,より時間的なビデオタスクを含めるべきである,という結論が得られた。
論文参考訳（メタデータ） (2023-12-21T08:15:02Z)
Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文参考訳（メタデータ） (2023-11-27T12:29:20Z)
VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文参考訳（メタデータ） (2023-05-22T17:51:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。