Fugu-MT 論文翻訳(概要): Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

論文の概要: Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

arxiv url: http://arxiv.org/abs/2306.05424v1
Date: Thu, 8 Jun 2023 17:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 12:47:36.866241
Title: Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models
Title（参考訳）: video-chatgpt: 大きなビジョンと言語モデルによる詳細なビデオ理解に向けて
Authors: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan
Abstract要約: 本研究は,ビデオチャットGPTを導入することで,ビデオベースの会話の未探索領域に対処する。ビデオ適応型ビジュアルエンコーダと大言語モデル(LLM)を融合したマルチモーダルモデルである。このモデルは、ビデオに関する人間のような会話を理解し、生成することができる。
参考スコア（独自算出の注目度）: 60.04060735194162
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conversation agents fueled by Large Language Models (LLMs) are providing a new way to interact with visual data. While there have been initial attempts for image-based conversation models, this work addresses the underexplored field of video-based conversation by introducing Video-ChatGPT. It is a multimodal model that merges a video-adapted visual encoder with a LLM. The model is capable of understanding and generating human-like conversations about videos. We introduce a new dataset of 100,000 video-instruction pairs used to train Video-ChatGPT acquired via manual and semi-automated pipeline that is easily scalable and robust to label noise. We also develop a quantiative evaluation framework for video-based dialogue models to objectively analyse the strengths and weaknesses of proposed models. Our code, models, instruction-sets and demo are released at https://github.com/mbzuai-oryx/Video-ChatGPT.
Abstract（参考訳）: 大規模言語モデル(llms)が推進する会話エージェントは、ビジュアルデータと対話するための新しい方法を提供する。画像ベースの会話モデルの初期の試みはあったが、ビデオチャットGPTを導入することで、ビデオベースの会話の未探索領域に対処する。ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。このモデルは、ビデオに関する人間的な会話を理解し、生成することができる。我々は,手動および半自動パイプラインを通じて取得したビデオチャットGPTのトレーニングに使用する10万のビデオ命令ペアのデータセットを導入し,ノイズのラベル付けを容易にする。また,提案モデルの強みや弱みを客観的に分析するための,映像ベース対話モデルの定量的評価フレームワークを開発した。私たちのコード、モデル、命令セット、デモはhttps://github.com/mbzuai-oryx/Video-ChatGPTで公開されています。

関連論文リスト

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文参考訳（メタデータ） (2025-07-28T15:52:36Z)
Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文参考訳（メタデータ） (2025-03-19T18:40:45Z)
VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-06-17T17:55:32Z)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文参考訳（メタデータ） (2024-03-22T17:57:42Z)
VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。 InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文参考訳（メタデータ） (2023-10-16T17:05:56Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
Valley: Video Assistant with Large Language model Enhanced abilitY [41.79449203718827]
大規模言語モデル強化型ビデオアシスタントであるValleyを紹介した。映像理解と指示追従能力でバレーを強化するため,映像指導データセットを構築した。タスク指向会話データの構築を容易にするためにChatGPTを用いる。
論文参考訳（メタデータ） (2023-06-12T16:11:10Z)
VideoChat: Chat-Centric Video Understanding [80.63932941216129]
我々は、ビデオチャットと呼ばれるエンドツーエンドのチャット中心のビデオ理解システムを開発した。学習可能なニューラルネットワークを通じて、ビデオファンデーションモデルと大きな言語モデルを統合する。予備的な定性的実験は、幅広いビデオアプリケーションにまたがる我々のシステムの可能性を実証している。
論文参考訳（メタデータ） (2023-05-10T17:59:04Z)
Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。 Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。私たちのコードと事前訓練されたモデルはリリースされます。
論文参考訳（メタデータ） (2021-12-17T15:55:53Z)
Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-12-10T14:47:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。