論文の概要: MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens
- arxiv url: http://arxiv.org/abs/2404.03413v1
- Date: Thu, 4 Apr 2024 12:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:51:30.511850
- Title: MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens
- Title(参考訳): MiniGPT4-Video:インターリーブ・ビジュアル・テクスチュアル・トークンによるビデオ理解のためのマルチモーダルLLMの改善
- Authors: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny,
- Abstract要約: MiniGPT4-Videoは、ビデオ理解に特化した多モード大言語モデル(LLM)である。
MiniGPT4-videoは、視覚的コンテンツだけでなく、テキストによる会話も含んでいるため、モデルが視覚的コンポーネントとテキストコンポーネントの両方を含むクエリに効果的に答えることができる。
- 参考スコア(独自算出の注目度): 36.02433030551474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MiniGPT4-Video, a multimodal Large Language Model (LLM) designed specifically for video understanding. The model is capable of processing both temporal visual and textual data, making it adept at understanding the complexities of videos. Building upon the success of MiniGPT-v2, which excelled in translating visual features into the LLM space for single images and achieved impressive results on various image-text benchmarks, this paper extends the model's capabilities to process a sequence of frames, enabling it to comprehend videos. MiniGPT4-video does not only consider visual content but also incorporates textual conversations, allowing the model to effectively answer queries involving both visual and text components. The proposed model outperforms existing state-of-the-art methods, registering gains of 4.22%, 1.13%, 20.82%, and 13.1% on the MSVD, MSRVTT, TGIF, and TVQA benchmarks respectively. Our models and code have been made publicly available here https://vision-cair.github.io/MiniGPT4-video/
- Abstract(参考訳): 本稿では,ビデオ理解に特化した多モード大言語モデル(LLM)であるMiniGPT4-Videoを紹介する。
このモデルは、時間的視覚データとテキストデータの両方を処理することができ、ビデオの複雑さを理解するのに適している。
単一の画像に対して視覚的特徴をLLM空間に翻訳し、様々な画像テキストベンチマークで印象的な結果を得るMiniGPT-v2の成功に基づいて、本論文は、フレーム列を処理するモデルの能力を拡張し、ビデオの理解を可能にした。
MiniGPT4-videoは、視覚的コンテンツだけでなく、テキストによる会話も含んでいるため、モデルが視覚的コンポーネントとテキストコンポーネントの両方を含むクエリに効果的に答えることができる。
提案したモデルは、MSVD、MSRVTT、TGIF、TVQAのベンチマークでそれぞれ4.22%、1.13%、20.82%、13.1%のゲインを登録し、既存の最先端手法よりも優れている。
私たちのモデルとコードは、https://vision-cair.github.io/MiniGPT4-video/で公開されています。
関連論文リスト
- An Image Grid Can Be Worth a Video: Zero-shot Video Question Answering Using a VLM [2.387054460181102]
本稿では,単一の視覚言語モデル(VLM)のみを利用する,シンプルで斬新な戦略を提案する。
ビデオ理解の本質は、時間的側面と各フレームの空間的詳細を包括的に管理することにある。
提案した画像グリッドビジョン言語モデル (IG-VLM) が既存の10のベンチマークのうち9つの手法を上回り, 提案手法を網羅した。
論文 参考訳(メタデータ) (2024-03-27T09:48:23Z) - GPT4Video: A Unified Multimodal Large Language Model for
lnstruction-Followed Understanding and Safety-Aware Generation [103.56612788682973]
GPT4Videoは、ビデオ理解と生成の両方の能力で大規模言語モデルを強化する統一されたマルチモデルフレームワークである。
具体的には、安定拡散生成モデルと統合された命令追従型アプローチを開発し、映像生成シナリオを効果的かつ安全に扱うことを実証した。
論文 参考訳(メタデータ) (2023-11-25T04:05:59Z) - Video-LLaVA: Learning United Visual Representation by Alignment Before
Projection [28.39885771124003]
我々は、画像とビデオの混合データセットから学習し、相互に強化するVideo-LLaVAを紹介する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
特に、大規模な実験では、ビデオ-LLaVAは、画像やビデオ用に特別に設計されたモデルよりも優れた、統一された視覚表現内の画像とビデオに相互に利益をもたらすことが示されている。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and
Language Models [60.04060735194162]
本研究は,ビデオチャットGPTを導入することで,ビデオベースの会話の未探索領域に対処する。
ビデオ適応型ビジュアルエンコーダと大言語モデル(LLM)を融合したマルチモーダルモデルである。
このモデルは、ビデオに関する人間のような会話を理解し、生成することができる。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - Semi-Parametric Video-Grounded Text Generation [21.506377836451577]
本稿では,セミパラメトリックなビデオグラウンドテキスト生成モデルSeViTを提案する。
ビデオを外部データストアとして扱うことで、SeViTは、いくつかのクエリ関連フレームを選択する非パラメトリックフレームレトリバーを含む。
実験により,より長いビデオと因果的ビデオ理解において,本手法が有意な優位性を示した。
論文 参考訳(メタデータ) (2023-01-27T03:00:43Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。