論文の概要: Chat-UniVi: Unified Visual Representation Empowers Large Language Models
with Image and Video Understanding
- arxiv url: http://arxiv.org/abs/2311.08046v1
- Date: Tue, 14 Nov 2023 10:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:38:27.385271
- Title: Chat-UniVi: Unified Visual Representation Empowers Large Language Models
with Image and Video Understanding
- Title(参考訳): Chat-UniVi: 画像とビデオの理解を備えた大規模言語モデルを実現する統一視覚表現
- Authors: Peng Jin, Ryuichi Takanobu, Caiwan Zhang, Xiaochun Cao, Li Yuan
- Abstract要約: Chat-UniViは視覚言語モデルであり、画像やビデオを含む会話を解釈し、関与することができる。
画像やビデオを一様に表現するために、ダイナミックな視覚トークンのセットを使用します。
我々はマルチスケール表現を活用し、モデルが高レベルなセマンティック概念と低レベルな視覚的詳細の両方を知覚できるようにする。
- 参考スコア(独自算出の注目度): 59.325984869221074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have demonstrated impressive universal capabilities
across a wide range of open-ended tasks and have extended their utility to
encompass multimodal conversations. However, existing methods encounter
challenges in effectively handling both image and video understanding,
particularly with limited visual tokens. In this work, we introduce Chat-UniVi,
a unified vision-language model capable of comprehending and engaging in
conversations involving images and videos through a unified visual
representation. Specifically, we employ a set of dynamic visual tokens to
uniformly represent images and videos. This representation framework empowers
the model to efficiently utilize a limited number of visual tokens to
simultaneously capture the spatial details necessary for images and the
comprehensive temporal relationship required for videos. Moreover, we leverage
a multi-scale representation, enabling the model to perceive both high-level
semantic concepts and low-level visual details. Notably, Chat-UniVi is trained
on a mixed dataset containing both images and videos, allowing direct
application to tasks involving both mediums without requiring any
modifications. Extensive experimental results demonstrate that Chat-UniVi, as a
unified model, consistently outperforms even existing methods exclusively
designed for either images or videos.
- Abstract(参考訳): 大規模言語モデルは、幅広いオープンエンドタスクにおいて印象的な普遍性を示し、マルチモーダルな会話を包含するようにそのユーティリティを拡張した。
しかし,既存の手法では画像理解と映像理解の両方を効果的に扱うことが困難であり,特に視覚トークンが限られている。
そこで本研究では,映像と映像の対話を統一的な視覚表現で理解・関与できる統一視覚言語モデルであるchat-univiを提案する。
具体的には、画像やビデオを一様に表現するために、動的視覚トークンのセットを用いる。
この表現フレームワークは、限られた数の視覚トークンを効率的に利用し、画像に必要な空間的詳細とビデオに必要な包括的な時間的関係を同時にキャプチャする。
さらに,マルチスケール表現を利用することで,高レベルの意味概念と低レベルの視覚詳細の両方を認識できる。
特筆すべきは、chat-univiは画像とビデオの両方を含む混合データセットでトレーニングされており、変更を必要とせず、両方のメディアに関わるタスクに直接適用することができる。
広範な実験結果から、chat-univiは統一モデルとして、画像やビデオ専用に設計された既存の方法よりも優れています。
関連論文リスト
- EVLM: An Efficient Vision-Language Model for Visual Understanding [18.794601813330715]
本稿では,計算コストを最小化する効率的なマルチモーダル言語モデルを提案する。
画像キャプションやビデオキャプションといったタスクにおいて,公開マルチモーダルベンチマークの競合スコアを達成し,良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-07-19T10:09:51Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - MIVC: Multiple Instance Visual Component for Visual-Language Models [46.869139462026]
様々な画像入力間のギャップを、市販の視覚言語モデルで埋める汎用のマルチインスタンスビジュアルコンポーネントMIVCを提案する。
視覚的質問応答,分類,キャプションタスクにおいて,MIVCを視覚言語モデルにプラグインすることで,モデル性能を一貫した改善が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T16:33:32Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。