論文の概要: LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models
- arxiv url: http://arxiv.org/abs/2311.17043v1
- Date: Tue, 28 Nov 2023 18:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 16:58:29.930791
- Title: LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models
- Title(参考訳): LLaMA-VID:大規模言語モデルではイメージは2つの価値を持つ
- Authors: Yanwei Li, Chengyao Wang, Jiaya Jia
- Abstract要約: 本稿では,視覚言語モデル(VLM)において,LLaMA-VIDと呼ばれるビデオおよび画像理解のためのトークン生成に挑戦する新しい手法を提案する。
LLaMA-VIDは、各フレームを2つの異なるトークン、すなわちコンテキストトークンとコンテントトークンで表現することでこの問題に対処する。
このデュアルトークン戦略は、重要な情報を保持しながら、長いビデオのオーバーロードを大幅に削減する。
- 参考スコア(独自算出の注目度): 66.40252169137447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a novel method to tackle the token generation
challenge in Vision Language Models (VLMs) for video and image understanding,
called LLaMA-VID. Current VLMs, while proficient in tasks like image captioning
and visual question answering, face computational burdens when processing long
videos due to the excessive visual tokens. LLaMA-VID addresses this issue by
representing each frame with two distinct tokens, namely context token and
content token. The context token encodes the overall image context based on
user input, whereas the content token encapsulates visual cues in each frame.
This dual-token strategy significantly reduces the overload of long videos
while preserving critical information. Generally, LLaMA-VID empowers existing
frameworks to support hour-long videos and pushes their upper limit with an
extra context token. It is proved to surpass previous methods on most of video-
or image-based benchmarks. Code is available
https://github.com/dvlab-research/LLaMA-VID}{https://github.com/dvlab-research/LLaMA-VID
- Abstract(参考訳): 本研究では,LLaMA-VIDと呼ばれるビデオおよび画像理解のための視覚言語モデル(VLM)において,トークン生成に挑戦する新しい手法を提案する。
現在のVLMは、画像キャプションや視覚的質問応答といったタスクに熟練しているが、過度の視覚トークンのために長いビデオを処理する場合、計算上の負担に直面している。
LLaMA-VIDは、各フレームを2つの異なるトークン、すなわちコンテキストトークンとコンテントトークンで表現することでこの問題に対処する。
コンテキストトークンはユーザ入力に基づいて全体イメージコンテキストを符号化し、コンテンツトークンは各フレーム内の視覚的キューをカプセル化する。
このデュアルトークン戦略は、重要な情報を保持しながら長いビデオのオーバーロードを大幅に削減する。
一般的に、LLaMA-VIDは既存のフレームワークに1時間のビデオをサポートする権限を与え、追加のコンテキストトークンで上限をプッシュする。
ビデオカメラのイメージベースベンチマークのほとんどにおいて、従来の手法を上回っていることが証明されている。
コードはhttps://github.com/dvlab-research/LLaMA-VID}{https://github.com/dvlab-research/LLaMA-VIDで入手できる。
関連論文リスト
- Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - Auto-Encoding Morph-Tokens for Multimodal LLM [151.2618346912529]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。
実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文 参考訳(メタデータ) (2024-05-03T08:43:06Z) - Vista-LLaMA: Reliable Video Narrator via Equal Distance to Visual Tokens [70.80127538938093]
Vista-LLaMAは、すべての視覚トークンと任意の言語トークンとの一貫性のある距離を維持する新しいフレームワークである。
本稿では,現在の映像フレームを前フレームの助けを借りて,言語空間のトークンに投影する逐次視覚プロジェクタを提案する。
論文 参考訳(メタデータ) (2023-12-12T09:47:59Z) - Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation [122.63617171522316]
大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルである。
本稿では,ビデオと画像の両方に対して簡潔かつ表現力のあるトークンを生成するために設計されたビデオトークンライザMAGVIT-v2を紹介する。
論文 参考訳(メタデータ) (2023-10-09T14:10:29Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。