論文の概要: Slot-VLM: SlowFast Slots for Video-Language Modeling
- arxiv url: http://arxiv.org/abs/2402.13088v1
- Date: Tue, 20 Feb 2024 15:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:42:21.577207
- Title: Slot-VLM: SlowFast Slots for Video-Language Modeling
- Title(参考訳): Slot-VLM:ビデオ言語モデリングのためのスローファストスロット
- Authors: Jiaqi Xu, Cuiling Lan, Wenxuan Xie, Xuejin Chen, Yan Lu
- Abstract要約: ビデオ言語モデル(VLM)は,大規模言語モデル(LLM)の進歩によって実現される
本研究では,意味的に分解されたビデオトークンを生成するための新しいフレームワークであるSlot-VLMを紹介する。
Slot-VLMの有効性を実験的に検証し,ビデオ質問応答における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 39.474247695753725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-Language Models (VLMs), powered by the advancements in Large Language
Models (LLMs), are charting new frontiers in video understanding. A pivotal
challenge is the development of an efficient method to encapsulate video
content into a set of representative tokens to align with LLMs. In this work,
we introduce Slot-VLM, a novel framework designed to generate semantically
decomposed video tokens, in terms of object-wise and event-wise visual
representations, to facilitate LLM inference. Particularly, we design a
SlowFast Slots module, i.e., SF-Slots, that adaptively aggregates the dense
video tokens from the CLIP vision encoder to a set of representative slots. In
order to take into account both the spatial object details and the varied
temporal dynamics, SF-Slots is built with a dual-branch structure. The
Slow-Slots branch focuses on extracting object-centric slots from features at
high spatial resolution but low (slow) frame sample rate, emphasizing detailed
object information. Conversely, Fast-Slots branch is engineered to learn
event-centric slots from high temporal sample rate but low spatial resolution
features. These complementary slots are combined to form the vision context,
serving as the input to the LLM for efficient question answering. Our
experimental results demonstrate the effectiveness of our Slot-VLM, which
achieves the state-of-the-art performance on video question-answering.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩を生かしたビデオ言語モデル(VLM)は,ビデオ理解における新たなフロンティアをグラフ化している。
重要な課題は、ビデオコンテンツをllmに合わせて一連の代表トークンにカプセル化する効率的な方法の開発である。
本研究では,オブジェクトワイドおよびイベントワイドの視覚表現の観点から,意味的に分解されたビデオトークンを生成するための新しいフレームワークであるSlot-VLMを紹介する。
特に,SlowFast Slotsモジュール,すなわちSF-Slotsを設計し,CLIPビジョンエンコーダから代表スロットの集合に高密度なビデオトークンを適応的に集約する。
空間的対象の詳細と時間的ダイナミクスの両方を考慮するため、sf-slotsはデュアルブランチ構造で構築されている。
Slow-Slotsブランチは、空間分解能が高いが(低)フレームサンプルレートの低い特徴からオブジェクト中心のスロットを抽出することに焦点を当て、詳細なオブジェクト情報を強調する。
逆に、Fast-Slotsブランチは、高時間サンプルレートからイベント中心スロットを学習するために設計されている。
これらの補完スロットを組み合わせて視覚コンテキストを形成し、効率的な質問応答のためのLLMへの入力として機能する。
Slot-VLMの有効性を実験的に検証し,ビデオ質問応答における最先端性能を実現する。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - B-VLLM: A Vision Large Language Model with Balanced Spatio-Temporal Tokens [34.83004283826509]
視覚エンコーダと統合された大規模言語モデル(VLLM)は、視覚理解において有望な性能を示している。
Balanced Vision-VLLM(B-VLLM):タスクに関連する時間的手がかりを効果的に活用することを目的とした新しいVLLMフレームワーク。
B-VLLMは、映像理解におけるフレーム数と視覚トークン数のバランスをとるのに有効であり、様々な映像理解において優れた性能が得られる。
論文 参考訳(メタデータ) (2024-12-13T07:13:40Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。