論文の概要: VideoChat: Chat-Centric Video Understanding
- arxiv url: http://arxiv.org/abs/2305.06355v1
- Date: Wed, 10 May 2023 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 11:57:45.407324
- Title: VideoChat: Chat-Centric Video Understanding
- Title(参考訳): VideoChat: チャット中心のビデオ理解
- Authors: KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali
Wang, Limin Wang, Yu Qiao
- Abstract要約: VideoChatはエンドツーエンドのチャット中心の理解システムだ。
学習可能なニューラルネットワークを通じて、ビデオファンデーションモデルと大きな言語モデルを統合する。
- 参考スコア(独自算出の注目度): 75.9431860823363
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this study, we initiate an exploration into video understanding by
introducing VideoChat, an end-to-end chat-centric video understanding system.
It integrates video foundation models and large language models via a learnable
neural interface, excelling in spatiotemporal reasoning, event localization,
and causal relationship inference. To instructively tune this system, we
propose a video-centric instruction dataset, composed of thousands of videos
matched with detailed descriptions and conversations. This dataset emphasizes
spatiotemporal reasoning and causal relationships, providing a valuable asset
for training chat-centric video understanding systems. Preliminary qualitative
experiments reveal our system's potential across a broad spectrum of video
applications and set the standard for future research. Access our code and data
at https://github.com/OpenGVLab/Ask-Anything
- Abstract(参考訳): 本研究では,エンドツーエンドのチャット中心のビデオ理解システムであるVideoChatを導入することで,映像理解の探求を開始する。
学習可能なニューラルネットワークを通じてビデオ基盤モデルと大規模言語モデルを統合し、時空間推論、イベントローカライゼーション、因果関係推論に優れる。
そこで本研究では,何千もの映像と詳細な説明や会話をマッチングした映像中心の命令データセットを提案する。
このデータセットは、時空間的推論と因果関係を強調し、チャット中心のビデオ理解システムのトレーニングに有用な資産を提供する。
予備的定性実験により,幅広いビデオ応用におけるシステムの可能性を明らかにし,今後の研究の基準を定式化する。
https://github.com/OpenGVLab/Ask-Anythingでコードとデータにアクセスする
関連論文リスト
- InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。
ビデオに関する詳細な会話を理解し、生成することができる。
我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - ChatVideo: A Tracklet-centric Multimodal and Versatile Video
Understanding System [119.51012668709502]
マルチモーダル・多目的ビデオ理解のためのビジョンを提示し,プロトタイプシステム,システムを提案する。
本システムは,トラックレットを基本映像単位として扱う,トラックレット中心のパラダイムに基づいて構築されている。
検出されたすべてのトラックレットはデータベースに格納され、データベースマネージャを介してユーザと対話する。
論文 参考訳(メタデータ) (2023-04-27T17:59:58Z) - Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions [30.650879247687747]
動画からダイナミックなシーンを伝えるビデオキャプションは、自然言語の理解を深める。
本稿では,より包括的なビデオ記述を作成するための革新的なアプローチであるVideo ChatCaptionerを紹介する。
論文 参考訳(メタデータ) (2023-04-09T12:46:18Z) - HLVU : A New Challenge to Test Deep Understanding of Movies the Way
Humans do [3.423039905282442]
本稿では,ハイレベル映像理解分野における新たな評価課題と方向性を提案する。
私たちが提案している課題は、自動ビデオ分析と理解のテストと、アクター、エンティティ、イベント、そしてそれらの関係について、いかに正確に映画を理解できるかをテストすることである。
オープンソースの映画のハイレベルビデオ理解データセットを試験的に収集し、人間の評価者がそれぞれを表現する知識グラフを構築した。
クエリのセットは、知識グラフから派生し、アクター間の関係を検索するシステムをテストするとともに、非視覚的概念の推論と検索を行う。
論文 参考訳(メタデータ) (2020-05-01T15:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。