Fugu-MT 論文翻訳(概要): xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

論文の概要: xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

arxiv url: http://arxiv.org/abs/2410.16267v1
Date: Mon, 21 Oct 2024 17:59:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.622744
Title: xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs
Title（参考訳）: xGen-MM-Vid(BLIP-3-Video):VLMでもビデオを表現するには32のトークンが必要だ
Authors: Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles,
Abstract要約: ビデオ用マルチモーダル言語モデルであるxGen-MM-Vid(B-3-Video)を提案する。 BLIP-3-Videoは、従来のビジュアルトークン化器に加えて「時間エンコーダ」を利用する。 BLIP-3-Videoは、より大規模な最先端モデルに匹敵するビデオ質問応答精度が得られることを実験的に確認する。
参考スコア（独自算出の注目度）: 112.40603281488673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present xGen-MM-Vid (BLIP-3-Video): a multimodal language model for videos, particularly designed to efficiently capture temporal information over multiple frames. BLIP-3-Video takes advantage of the 'temporal encoder' in addition to the conventional visual tokenizer, which maps a sequence of tokens over multiple frames into a compact set of visual tokens. This enables BLIP3-Video to use much fewer visual tokens than its competing models (e.g., 32 vs. 4608 tokens). We explore different types of temporal encoders, including learnable spatio-temporal pooling as well as sequential models like Token Turing Machines. We experimentally confirm that BLIP-3-Video obtains video question-answering accuracies comparable to much larger state-of-the-art models (e.g., 34B), while being much smaller (i.e., 4B) and more efficient by using fewer visual tokens. The project website is at https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
Abstract（参考訳）: 本稿では,ビデオ用マルチモーダル言語モデルであるXGen-MM-Vid(BLIP-3-Video)について述べる。 BLIP-3-Videoは、複数のフレームにまたがるトークン列をコンパクトな視覚トークン集合にマッピングする従来の視覚トークン化器に加えて、「時間エンコーダ」を利用する。これによりBLIP3-Videoは、競合するモデル(例えば、32対4608トークン)よりもはるかに少ないビジュアルトークンを使用することができる。学習可能な時空間プールや,Token Turing Machinesのようなシーケンシャルモデルなど,さまざまなタイプの時空間エンコーダを探索する。 BLIP-3-Videoは,より大型の最先端モデル(例えば34B)に匹敵するビデオ質問応答精度を得られるが,より小さく(例えば4B)、少ない視覚トークンを使用することにより効率が向上することを確認した。プロジェクトのWebサイトはhttps://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.htmlにある。

関連論文リスト

Clapper: Compact Learning and Video Representation in VLMs [15.564506713994406]
現在の視覚言語モデル(VLM)は、多様なビデオ理解アプリケーションにまたがる顕著な機能を示している。本稿では,映像表現の速度を遅くする手法であるクラッパーを提案し,時間空間符号化を効率的にするためのTimePerceiverという新しいモジュールを提案する。
論文参考訳（メタデータ） (2025-05-21T13:52:17Z)
REEF: Relevance-Aware and Efficient LLM Adapter for Video Understanding [2.309018557701645]
最近の方法では、ビデオレベルの理解のために、時間外ビデオを扱うためにメモリバンクを圧縮することが多い。そこで我々は,視覚トークンを用いて映像を大規模に圧縮するビデオの設計を行った。
論文参考訳（メタデータ） (2025-04-07T20:36:34Z)
Video-XL-Pro: Reconstructive Token Compression for Extremely Long Video Understanding [12.215829700340988]
Video-XL-Proは、非常に長いビデオ理解のための効率的な方法である。 Video-XL-Proは、1つのA100 GPUで8Kフレーム以上を処理できる。
論文参考訳（メタデータ） (2025-03-24T09:21:48Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction [93.69757398746017]
CoordTokは、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学ぶビデオトークンである。 CoordTokは、ビデオを分解された三面体表現にエンコードし、ランダムにサンプリングされた$(x,y,t)$座標に対応するパッチを再構築する。
論文参考訳（メタデータ） (2024-11-22T06:50:44Z)
ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文参考訳（メタデータ） (2024-10-10T20:54:15Z)
VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文参考訳（メタデータ） (2024-06-13T17:59:59Z)
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding [38.60950616529459]
我々は,ビデオシーケンスの時間軸をチャネル次元に絞り込み,モバイルビデオ理解のための軽量なビデオ認識ネットワークであるtextitSqueezeTime を提案する。提案されているSqueezeTimeは、非常に軽量で高速で、モバイルビデオ理解の精度が高い。
論文参考訳（メタデータ） (2024-05-14T06:32:40Z)
VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-02-20T18:29:49Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models [66.40252169137447]
本稿では,視覚言語モデル(VLM)において,LLaMA-VIDと呼ばれるビデオおよび画像理解のためのトークン生成に挑戦する新しい手法を提案する。 LLaMA-VIDは、各フレームを2つの異なるトークン、すなわちコンテキストトークンとコンテントトークンで表現することでこの問題に対処する。このデュアルトークン戦略は、重要な情報を保持しながら、長いビデオのオーバーロードを大幅に削減する。
論文参考訳（メタデータ） (2023-11-28T18:53:43Z)
UMIFormer: Mining the Correlations between Similar Tokens for Multi-View 3D Reconstruction [9.874357856580447]
非構造化多重画像(UMIFormer)のためのトランスフォーマネットワークを提案する。これは、切り離されたビュー内エンコーディングのためのトランスフォーマーブロックと、トークンの修正のために設計されたブロックを利用する。様々な分岐から取得した全てのトークンは、固定サイズのコンパクト表現に圧縮される。
論文参考訳（メタデータ） (2023-02-27T17:27:45Z)
VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文参考訳（メタデータ） (2021-06-21T16:48:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。