論文の概要: Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and
Language Models
- arxiv url: http://arxiv.org/abs/2306.05424v1
- Date: Thu, 8 Jun 2023 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 12:47:36.866241
- Title: Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and
Language Models
- Title(参考訳): video-chatgpt: 大きなビジョンと言語モデルによる詳細なビデオ理解に向けて
- Authors: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan
- Abstract要約: 本研究は,ビデオチャットGPTを導入することで,ビデオベースの会話の未探索領域に対処する。
ビデオ適応型ビジュアルエンコーダと大言語モデル(LLM)を融合したマルチモーダルモデルである。
このモデルは、ビデオに関する人間のような会話を理解し、生成することができる。
- 参考スコア(独自算出の注目度): 60.04060735194162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversation agents fueled by Large Language Models (LLMs) are providing a
new way to interact with visual data. While there have been initial attempts
for image-based conversation models, this work addresses the underexplored
field of video-based conversation by introducing Video-ChatGPT. It is a
multimodal model that merges a video-adapted visual encoder with a LLM. The
model is capable of understanding and generating human-like conversations about
videos. We introduce a new dataset of 100,000 video-instruction pairs used to
train Video-ChatGPT acquired via manual and semi-automated pipeline that is
easily scalable and robust to label noise. We also develop a quantiative
evaluation framework for video-based dialogue models to objectively analyse the
strengths and weaknesses of proposed models. Our code, models, instruction-sets
and demo are released at https://github.com/mbzuai-oryx/Video-ChatGPT.
- Abstract(参考訳): 大規模言語モデル(llms)が推進する会話エージェントは、ビジュアルデータと対話するための新しい方法を提供する。
画像ベースの会話モデルの初期の試みはあったが、ビデオチャットGPTを導入することで、ビデオベースの会話の未探索領域に対処する。
ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。
このモデルは、ビデオに関する人間的な会話を理解し、生成することができる。
我々は,手動および半自動パイプラインを通じて取得したビデオチャットGPTのトレーニングに使用する10万のビデオ命令ペアのデータセットを導入し,ノイズのラベル付けを容易にする。
また,提案モデルの強みや弱みを客観的に分析するための,映像ベース対話モデルの定量的評価フレームワークを開発した。
私たちのコード、モデル、命令セット、デモはhttps://github.com/mbzuai-oryx/Video-ChatGPTで公開されています。
関連論文リスト
- Analyzing Zero-Shot Abilities of Vision-Language Models on Video
Understanding Tasks [6.925770576386087]
本稿では,ゼロショット環境における映像理解タスクの評価において,画像テキストモデルの一般化能力について詳細に検討する。
実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示すことがわかった。
これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-07T20:57:54Z) - Valley: Video Assistant with Large Language model Enhanced abilitY [41.79449203718827]
大規模言語モデル強化型ビデオアシスタントであるValleyを紹介した。
映像理解と指示追従能力でバレーを強化するため,映像指導データセットを構築した。
タスク指向会話データの構築を容易にするためにChatGPTを用いる。
論文 参考訳(メタデータ) (2023-06-12T16:11:10Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - VideoChat: Chat-Centric Video Understanding [80.63932941216129]
我々は、ビデオチャットと呼ばれるエンドツーエンドのチャット中心のビデオ理解システムを開発した。
学習可能なニューラルネットワークを通じて、ビデオファンデーションモデルと大きな言語モデルを統合する。
予備的な定性的実験は、幅広いビデオアプリケーションにまたがる我々のシステムの可能性を実証している。
論文 参考訳(メタデータ) (2023-05-10T17:59:04Z) - Connecting Vision and Language with Video Localized Narratives [54.094554472715245]
視覚と言語を繋ぐマルチモーダルなビデオアノテーションの新たな形式であるビデオローカライズド・ナラティブスを提案する。
オリジナルのLocalized Narrativesでは、アノテータは画像上にマウスを同時に移動させ、各単語をマウストレースセグメントで接地する。
我々の新しいプロトコルは、アノテータがローカライズド・ナラティブ(Localized Narratives)を使ってビデオのストーリーを語ることを可能にし、複数のアクターが相互に相互作用し、複数の受動的オブジェクトを持つ複雑なイベントをキャプチャする。
論文 参考訳(メタデータ) (2023-02-22T09:04:00Z) - Affective Faces for Goal-Driven Dyadic Communication [16.72177738101024]
本稿では,言語会話における言語コミュニケーションと非言語コミュニケーションの関連をモデル化するためのビデオフレームワークを提案する。
本手法では,社会的に適切な表情を持つリスナーの映像を検索する。
論文 参考訳(メタデータ) (2023-01-26T05:00:09Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。