論文の概要: ChatVideo: A Tracklet-centric Multimodal and Versatile Video
Understanding System
- arxiv url: http://arxiv.org/abs/2304.14407v1
- Date: Thu, 27 Apr 2023 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 11:56:21.353247
- Title: ChatVideo: A Tracklet-centric Multimodal and Versatile Video
Understanding System
- Title(参考訳): chatvideo:トラックレット中心のマルチモーダル・多目的ビデオ理解システム
- Authors: Junke Wang and Dongdong Chen and Chong Luo and Xiyang Dai and Lu Yuan
and Zuxuan Wu and Yu-Gang Jiang
- Abstract要約: マルチモーダル・多目的ビデオ理解のためのビジョンを提示し,プロトタイプシステム,システムを提案する。
本システムは,トラックレットを基本映像単位として扱う,トラックレット中心のパラダイムに基づいて構築されている。
検出されたすべてのトラックレットはデータベースに格納され、データベースマネージャを介してユーザと対話する。
- 参考スコア(独自算出の注目度): 119.51012668709502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing deep video models are limited by specific tasks, fixed input-output
spaces, and poor generalization capabilities, making it difficult to deploy
them in real-world scenarios. In this paper, we present our vision for
multimodal and versatile video understanding and propose a prototype system,
\system. Our system is built upon a tracklet-centric paradigm, which treats
tracklets as the basic video unit and employs various Video Foundation Models
(ViFMs) to annotate their properties e.g., appearance, motion, \etc. All the
detected tracklets are stored in a database and interact with the user through
a database manager. We have conducted extensive case studies on different types
of in-the-wild videos, which demonstrates the effectiveness of our method in
answering various video-related problems. Our project is available at
https://www.wangjunke.info/ChatVideo/
- Abstract(参考訳): 既存のディープビデオモデルは、特定のタスク、固定された入出力空間、一般化能力に制限されているため、現実のシナリオでのデプロイが困難である。
本稿では,マルチモーダル・多目的ビデオ理解のためのビジョンを示し,プロトタイプシステムである \system を提案する。
本システムは,トラックレットを基本ビデオ単位として扱い,様々なビデオファウンデーションモデル(ViFM)を用いて,その特性,例えば外見,動き,および<etc>をアノテートする,トラックレット中心のパラダイムに基づいて構築されている。
検出されたトラックレットはすべてデータベースに格納され、データベースマネージャを介してユーザと対話する。
我々は,様々な形態の動画のケーススタディを行い,様々なビデオ関連問題に対処するための手法の有効性を実証した。
私たちのプロジェクトはhttps://www.wangjunke.info/ChatVideo/で利用可能です。
関連論文リスト
- Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos [35.974750867072345]
本稿では,長めの自己中心型ビデオにおけるMH-VidQA(Multi-Hop Video Question Answering)の問題について考察する。
時間的エビデンスを伴う複数ホップ質問応答ペアを生成するための自動パイプラインを開発する。
次に,大規模言語モデル (GeLM) を用いたグラウンディング散乱証拠 (Gunding Scattered Evidence with Large Language Model) と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-08-26T17:58:47Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - VideoChat: Chat-Centric Video Understanding [80.63932941216129]
我々は、ビデオチャットと呼ばれるエンドツーエンドのチャット中心のビデオ理解システムを開発した。
学習可能なニューラルネットワークを通じて、ビデオファンデーションモデルと大きな言語モデルを統合する。
予備的な定性的実験は、幅広いビデオアプリケーションにまたがる我々のシステムの可能性を実証している。
論文 参考訳(メタデータ) (2023-05-10T17:59:04Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。