Fugu-MT 論文翻訳(概要): MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

論文の概要: MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

arxiv url: http://arxiv.org/abs/2404.03413v1
Date: Thu, 4 Apr 2024 12:46:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 14:51:30.511850
Title: MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens
Title（参考訳）: MiniGPT4-Video:インターリーブ・ビジュアル・テクスチュアル・トークンによるビデオ理解のためのマルチモーダルLLMの改善
Authors: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny,
Abstract要約: MiniGPT4-Videoは、ビデオ理解に特化した多モード大言語モデル(LLM)である。 MiniGPT4-videoは、視覚的コンテンツだけでなく、テキストによる会話も含んでいるため、モデルが視覚的コンポーネントとテキストコンポーネントの両方を含むクエリに効果的に答えることができる。
参考スコア（独自算出の注目度）: 36.02433030551474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces MiniGPT4-Video, a multimodal Large Language Model (LLM) designed specifically for video understanding. The model is capable of processing both temporal visual and textual data, making it adept at understanding the complexities of videos. Building upon the success of MiniGPT-v2, which excelled in translating visual features into the LLM space for single images and achieved impressive results on various image-text benchmarks, this paper extends the model's capabilities to process a sequence of frames, enabling it to comprehend videos. MiniGPT4-video does not only consider visual content but also incorporates textual conversations, allowing the model to effectively answer queries involving both visual and text components. The proposed model outperforms existing state-of-the-art methods, registering gains of 4.22%, 1.13%, 20.82%, and 13.1% on the MSVD, MSRVTT, TGIF, and TVQA benchmarks respectively. Our models and code have been made publicly available here https://vision-cair.github.io/MiniGPT4-video/
Abstract（参考訳）: 本稿では,ビデオ理解に特化した多モード大言語モデル(LLM)であるMiniGPT4-Videoを紹介する。このモデルは、時間的視覚データとテキストデータの両方を処理することができ、ビデオの複雑さを理解するのに適している。単一の画像に対して視覚的特徴をLLM空間に翻訳し、様々な画像テキストベンチマークで印象的な結果を得るMiniGPT-v2の成功に基づいて、本論文は、フレーム列を処理するモデルの能力を拡張し、ビデオの理解を可能にした。 MiniGPT4-videoは、視覚的コンテンツだけでなく、テキストによる会話も含んでいるため、モデルが視覚的コンポーネントとテキストコンポーネントの両方を含むクエリに効果的に答えることができる。提案したモデルは、MSVD、MSRVTT、TGIF、TVQAのベンチマークでそれぞれ4.22%、1.13%、20.82%、13.1%のゲインを登録し、既存の最先端手法よりも優れている。私たちのモデルとコードは、https://vision-cair.github.io/MiniGPT4-video/で公開されています。

関連論文リスト

Improving LLM Video Understanding with 16 Frames Per Second [33.70837005629285]
既存の手法では、フレーム毎秒(FPS)$leqslant$2の固定低フレームレートでサンプリングされた画像から抽出された静的な特徴に頼っている。 F-16は,高速ビデオ理解のために設計された最初のマルチモーダル大言語モデル(LLM)である。 F-16は、キーセマンティック情報を保存しながら、動的視覚特徴を効率的にキャプチャする。
論文参考訳（メタデータ） (2025-03-18T06:48:08Z)
TinyLLaVA-Video: A Simple Framework of Small-scale Large Multimodal Models for Video Understanding [10.92767902813594]
本稿では,TinyLLaVA-Videoという,ビデオシーケンスを簡単な方法で処理するパラメータが4Bを超えないビデオ理解モデルを提案する。このフレームワークの有効性を実験により検証し、既存の7Bモデルに匹敵する性能を達成する最良のモデルを示す。コードとトレーニングのレシピは完全にオープンソースで、すべてのコンポーネントとトレーニングデータが公開されている。
論文参考訳（メタデータ） (2025-01-26T13:10:12Z)
Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM [28.64108439552772]
プロプライエタリなモデルから生成された大規模合成データセットを紹介する。また、計算効率と性能のバランスをとる動的ビジュアルトークン圧縮アーキテクチャについても検討する。提案手法は,様々な映像タスクにまたがって最先端の成果を達成し,印象的な一般化を示す。
論文参考訳（メタデータ） (2024-12-12T18:20:41Z)
TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文参考訳（メタデータ） (2024-11-17T13:08:29Z)
CogVLM2: Visual Language Models for Image and Video Understanding [69.361109860391]
画像と映像の理解のための新しいビジュアル言語モデルであるCagVLM2ファミリを提案する。イメージ理解モデルとして、CogVLM2は、トレーニング前とトレーニング後の両方でトレーニングレシピを改善したビジュアルエキスパートアーキテクチャを継承する。ビデオ理解モデルとして、CogVLM2-Videoはマルチフレーム入力とタイムスタンプを統合し、時間的グラウンドの自動構築を提案する。
論文参考訳（メタデータ） (2024-08-29T12:59:12Z)
Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。 Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文参考訳（メタデータ） (2024-06-10T06:17:55Z)
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。 ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文参考訳（メタデータ） (2024-06-06T17:58:54Z)
RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文参考訳（メタデータ） (2024-05-11T16:22:00Z)
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。 Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-11-16T10:59:44Z)
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。ビデオに関する詳細な会話を理解し、生成することができる。我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文参考訳（メタデータ） (2023-06-08T17:59:56Z)
Semi-Parametric Video-Grounded Text Generation [21.506377836451577]
本稿では,セミパラメトリックなビデオグラウンドテキスト生成モデルSeViTを提案する。ビデオを外部データストアとして扱うことで、SeViTは、いくつかのクエリ関連フレームを選択する非パラメトリックフレームレトリバーを含む。実験により,より長いビデオと因果的ビデオ理解において,本手法が有意な優位性を示した。
論文参考訳（メタデータ） (2023-01-27T03:00:43Z)
CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文参考訳（メタデータ） (2021-10-13T10:17:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。