論文の概要: Chat-UniVi: Unified Visual Representation Empowers Large Language Models
with Image and Video Understanding
- arxiv url: http://arxiv.org/abs/2311.08046v1
- Date: Tue, 14 Nov 2023 10:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:38:27.385271
- Title: Chat-UniVi: Unified Visual Representation Empowers Large Language Models
with Image and Video Understanding
- Title(参考訳): Chat-UniVi: 画像とビデオの理解を備えた大規模言語モデルを実現する統一視覚表現
- Authors: Peng Jin, Ryuichi Takanobu, Caiwan Zhang, Xiaochun Cao, Li Yuan
- Abstract要約: Chat-UniViは視覚言語モデルであり、画像やビデオを含む会話を解釈し、関与することができる。
画像やビデオを一様に表現するために、ダイナミックな視覚トークンのセットを使用します。
我々はマルチスケール表現を活用し、モデルが高レベルなセマンティック概念と低レベルな視覚的詳細の両方を知覚できるようにする。
- 参考スコア(独自算出の注目度): 59.325984869221074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have demonstrated impressive universal capabilities
across a wide range of open-ended tasks and have extended their utility to
encompass multimodal conversations. However, existing methods encounter
challenges in effectively handling both image and video understanding,
particularly with limited visual tokens. In this work, we introduce Chat-UniVi,
a unified vision-language model capable of comprehending and engaging in
conversations involving images and videos through a unified visual
representation. Specifically, we employ a set of dynamic visual tokens to
uniformly represent images and videos. This representation framework empowers
the model to efficiently utilize a limited number of visual tokens to
simultaneously capture the spatial details necessary for images and the
comprehensive temporal relationship required for videos. Moreover, we leverage
a multi-scale representation, enabling the model to perceive both high-level
semantic concepts and low-level visual details. Notably, Chat-UniVi is trained
on a mixed dataset containing both images and videos, allowing direct
application to tasks involving both mediums without requiring any
modifications. Extensive experimental results demonstrate that Chat-UniVi, as a
unified model, consistently outperforms even existing methods exclusively
designed for either images or videos.
- Abstract(参考訳): 大規模言語モデルは、幅広いオープンエンドタスクにおいて印象的な普遍性を示し、マルチモーダルな会話を包含するようにそのユーティリティを拡張した。
しかし,既存の手法では画像理解と映像理解の両方を効果的に扱うことが困難であり,特に視覚トークンが限られている。
そこで本研究では,映像と映像の対話を統一的な視覚表現で理解・関与できる統一視覚言語モデルであるchat-univiを提案する。
具体的には、画像やビデオを一様に表現するために、動的視覚トークンのセットを用いる。
この表現フレームワークは、限られた数の視覚トークンを効率的に利用し、画像に必要な空間的詳細とビデオに必要な包括的な時間的関係を同時にキャプチャする。
さらに,マルチスケール表現を利用することで,高レベルの意味概念と低レベルの視覚詳細の両方を認識できる。
特筆すべきは、chat-univiは画像とビデオの両方を含む混合データセットでトレーニングされており、変更を必要とせず、両方のメディアに関わるタスクに直接適用することができる。
広範な実験結果から、chat-univiは統一モデルとして、画像やビデオ専用に設計された既存の方法よりも優れています。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。
視覚エンコーダに直接質問認識を埋め込む。
この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文 参考訳(メタデータ) (2024-02-08T08:03:39Z) - MIVC: Multiple Instance Visual Component for Visual-Language Models [46.869139462026]
様々な画像入力間のギャップを、市販の視覚言語モデルで埋める汎用のマルチインスタンスビジュアルコンポーネントMIVCを提案する。
視覚的質問応答,分類,キャプションタスクにおいて,MIVCを視覚言語モデルにプラグインすることで,モデル性能を一貫した改善が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T16:33:32Z) - BiLL-VTG: Bridging Large Language Models and Lightweight Visual Tools
for Video-based Texts Generation [47.02859025575576]
BiLL-VTGは、ビデオの推論に大規模な言語モデルを活用する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令を用いて対応する映像イベントをローカライズする。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual
Tokenization [53.946191253524766]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。