Fugu-MT 論文翻訳(概要): Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

論文の概要: Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

arxiv url: http://arxiv.org/abs/2306.05424v2
Date: Mon, 10 Jun 2024 01:36:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 05:38:48.704636
Title: Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models
Title（参考訳）: ビデオチャットGPT:大規模ビジョンと言語モデルによる詳細な映像理解を目指して
Authors: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan,
Abstract要約: Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。ビデオに関する詳細な会話を理解し、生成することができる。我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
参考スコア（独自算出の注目度）: 59.525108086957296
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conversation agents fueled by Large Language Models (LLMs) are providing a new way to interact with visual data. While there have been initial attempts for image-based conversation models, this work addresses the under-explored field of \emph{video-based conversation} by introducing Video-ChatGPT. It is a multimodal model that merges a video-adapted visual encoder with an LLM. The resulting model is capable of understanding and generating detailed conversations about videos. We introduce a new dataset of 100,000 video-instruction pairs used to train Video-ChatGPT acquired via manual and semi-automated pipeline that is easily scalable and robust to label noise. We also develop a quantitative evaluation framework for video-based dialogue models to objectively analyze the strengths and weaknesses of video-based dialogue models. Code: https://github.com/mbzuai-oryx/Video-ChatGPT.
Abstract（参考訳）: LLM(Large Language Models)によって刺激される会話エージェントは、視覚データと対話する新しい方法を提供する。画像ベースの会話モデルの初期の試みはあったが、この研究はビデオチャットGPTを導入することで、探究対象の「emph{video-based conversation}」に対処している。ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。得られたモデルは、ビデオに関する詳細な会話を理解し、生成することができる。我々は,手動および半自動パイプラインを通じて取得したビデオチャットGPTのトレーニングに使用する10万のビデオ命令ペアのデータセットを導入し,ノイズのラベル付けが容易で堅牢である。また,映像ベース対話モデルの長所と短所を客観的に分析するための,映像ベース対話モデルの定量的評価フレームワークを開発した。コード:https://github.com/mbzuai-oryx/Video-ChatGPT。

関連論文リスト

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文参考訳（メタデータ） (2025-07-28T15:52:36Z)
Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文参考訳（メタデータ） (2025-03-19T18:40:45Z)
VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-06-17T17:55:32Z)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文参考訳（メタデータ） (2024-03-22T17:57:42Z)
VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。 InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文参考訳（メタデータ） (2023-10-16T17:05:56Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
Valley: Video Assistant with Large Language model Enhanced abilitY [41.79449203718827]
大規模言語モデル強化型ビデオアシスタントであるValleyを紹介した。映像理解と指示追従能力でバレーを強化するため,映像指導データセットを構築した。タスク指向会話データの構築を容易にするためにChatGPTを用いる。
論文参考訳（メタデータ） (2023-06-12T16:11:10Z)
VideoChat: Chat-Centric Video Understanding [80.63932941216129]
我々は、ビデオチャットと呼ばれるエンドツーエンドのチャット中心のビデオ理解システムを開発した。学習可能なニューラルネットワークを通じて、ビデオファンデーションモデルと大きな言語モデルを統合する。予備的な定性的実験は、幅広いビデオアプリケーションにまたがる我々のシステムの可能性を実証している。
論文参考訳（メタデータ） (2023-05-10T17:59:04Z)
Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。 Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。私たちのコードと事前訓練されたモデルはリリースされます。
論文参考訳（メタデータ） (2021-12-17T15:55:53Z)
Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-12-10T14:47:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。