論文の概要: Slot-VLM: SlowFast Slots for Video-Language Modeling
- arxiv url: http://arxiv.org/abs/2402.13088v1
- Date: Tue, 20 Feb 2024 15:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:42:21.577207
- Title: Slot-VLM: SlowFast Slots for Video-Language Modeling
- Title(参考訳): Slot-VLM:ビデオ言語モデリングのためのスローファストスロット
- Authors: Jiaqi Xu, Cuiling Lan, Wenxuan Xie, Xuejin Chen, Yan Lu
- Abstract要約: ビデオ言語モデル(VLM)は,大規模言語モデル(LLM)の進歩によって実現される
本研究では,意味的に分解されたビデオトークンを生成するための新しいフレームワークであるSlot-VLMを紹介する。
Slot-VLMの有効性を実験的に検証し,ビデオ質問応答における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 39.474247695753725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-Language Models (VLMs), powered by the advancements in Large Language
Models (LLMs), are charting new frontiers in video understanding. A pivotal
challenge is the development of an efficient method to encapsulate video
content into a set of representative tokens to align with LLMs. In this work,
we introduce Slot-VLM, a novel framework designed to generate semantically
decomposed video tokens, in terms of object-wise and event-wise visual
representations, to facilitate LLM inference. Particularly, we design a
SlowFast Slots module, i.e., SF-Slots, that adaptively aggregates the dense
video tokens from the CLIP vision encoder to a set of representative slots. In
order to take into account both the spatial object details and the varied
temporal dynamics, SF-Slots is built with a dual-branch structure. The
Slow-Slots branch focuses on extracting object-centric slots from features at
high spatial resolution but low (slow) frame sample rate, emphasizing detailed
object information. Conversely, Fast-Slots branch is engineered to learn
event-centric slots from high temporal sample rate but low spatial resolution
features. These complementary slots are combined to form the vision context,
serving as the input to the LLM for efficient question answering. Our
experimental results demonstrate the effectiveness of our Slot-VLM, which
achieves the state-of-the-art performance on video question-answering.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩を生かしたビデオ言語モデル(VLM)は,ビデオ理解における新たなフロンティアをグラフ化している。
重要な課題は、ビデオコンテンツをllmに合わせて一連の代表トークンにカプセル化する効率的な方法の開発である。
本研究では,オブジェクトワイドおよびイベントワイドの視覚表現の観点から,意味的に分解されたビデオトークンを生成するための新しいフレームワークであるSlot-VLMを紹介する。
特に,SlowFast Slotsモジュール,すなわちSF-Slotsを設計し,CLIPビジョンエンコーダから代表スロットの集合に高密度なビデオトークンを適応的に集約する。
空間的対象の詳細と時間的ダイナミクスの両方を考慮するため、sf-slotsはデュアルブランチ構造で構築されている。
Slow-Slotsブランチは、空間分解能が高いが(低)フレームサンプルレートの低い特徴からオブジェクト中心のスロットを抽出することに焦点を当て、詳細なオブジェクト情報を強調する。
逆に、Fast-Slotsブランチは、高時間サンプルレートからイベント中心スロットを学習するために設計されている。
これらの補完スロットを組み合わせて視覚コンテキストを形成し、効率的な質問応答のためのLLMへの入力として機能する。
Slot-VLMの有効性を実験的に検証し,ビデオ質問応答における最先端性能を実現する。
関連論文リスト
- TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。