論文の概要: LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding
- arxiv url: http://arxiv.org/abs/2501.08282v1
- Date: Tue, 14 Jan 2025 17:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:08.396807
- Title: LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding
- Title(参考訳): LLaVA-ST: 微粒化時空間理解のための多モーダル大言語モデル
- Authors: Hongyu Li, Jinyu Chen, Ziyu Wei, Shaofei Huang, Tianrui Hui, Jialin Gao, Xiaoming Wei, Si Liu,
- Abstract要約: LLaVA-STは空間的・時間的マルチモーダル理解のためのMLLMである。
LLaVA-STでは,座標の特別なトークンを視覚空間に埋め込んだLanguage-Aligned Positional Embeddingを提案する。
また、時間分解能と空間分解能の特徴圧縮を2つの異なるポイント・ツー・リージョンのアテンション処理ストリームに分離する空間-テンポラル・パッカーを設計する。
- 参考スコア(独自算出の注目度): 29.42797944919497
- License:
- Abstract: Recent advancements in multimodal large language models (MLLMs) have shown promising results, yet existing approaches struggle to effectively handle both temporal and spatial localization simultaneously. This challenge stems from two key issues: first, incorporating spatial-temporal localization introduces a vast number of coordinate combinations, complicating the alignment of linguistic and visual coordinate representations; second, encoding fine-grained temporal and spatial information during video feature compression is inherently difficult. To address these issues, we propose LLaVA-ST, a MLLM for fine-grained spatial-temporal multimodal understanding. In LLaVA-ST, we propose Language-Aligned Positional Embedding, which embeds the textual coordinate special token into the visual space, simplifying the alignment of fine-grained spatial-temporal correspondences. Additionally, we design the Spatial-Temporal Packer, which decouples the feature compression of temporal and spatial resolutions into two distinct point-to-region attention processing streams. Furthermore, we propose ST-Align dataset with 4.3M training samples for fine-grained spatial-temporal multimodal understanding. With ST-align, we present a progressive training pipeline that aligns the visual and textual feature through sequential coarse-to-fine stages.Additionally, we introduce an ST-Align benchmark to evaluate spatial-temporal interleaved fine-grained understanding tasks, which include Spatial-Temporal Video Grounding (STVG) , Event Localization and Captioning (ELC) and Spatial Video Grounding (SVG). LLaVA-ST achieves outstanding performance on 11 benchmarks requiring fine-grained temporal, spatial, or spatial-temporal interleaving multimodal understanding. Our code, data and benchmark will be released at Our code, data and benchmark will be released at https://github.com/appletea233/LLaVA-ST .
- Abstract(参考訳): 近年のMLLM(Multimodal large language model)の進歩は有望な結果を示しているが、既存のアプローチは時間的および空間的両方のローカライゼーションを同時に効果的に扱うのに苦労している。
この課題は、まず、空間的時間的局所化を取り入れることで、言語的および視覚的座標表現のアライメントを複雑化する、膨大な数の座標結合を導入すること、次に、ビデオ特徴圧縮中の微細な時間的および空間的情報を符号化することが本質的に困難である、という2つの主要な問題から生じる。
これらの問題に対処するため,空間・時間的マルチモーダル理解のためのMLLMであるLLaVA-STを提案する。
LLaVA-STでは、テキスト座標の特別なトークンを視覚空間に埋め込んで、微粒な時空間対応のアライメントを簡素化するLanguage-Aligned Positional Embeddingを提案する。
さらに,時間分解能と空間分解能の特徴圧縮を2つの異なるポイント・ツー・リージョンのアテンション処理ストリームに分離する空間-テンポラル・パッカーを設計する。
さらに,空間的・時間的マルチモーダル理解のための4.3Mトレーニングサンプルを用いたST-Alignデータセットを提案する。
STVG(Spatial-Temporal Video Grounding)、イベントローカライゼーション・アンド・キャプション(イベントローカライゼーション・アンド・キャプション)、SVG(Spatial Video Grounding)などの空間的時間的インターリーブされた微粒な理解タスクを評価するためのST-Alignベンチマークを導入する。
LLaVA-STは、微細な時間的、空間的、空間的、時間的インターリーブマルチモーダル理解を必要とする11のベンチマークで優れた性能を達成する。
私たちのコード、データ、ベンチマークは、私たちのコード、データ、ベンチマークはhttps://github.com/appletea233/LLaVA-STでリリースされます。
関連論文リスト
- Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - $\textbf{S}^2$IP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting [21.921303835714628]
本稿では,LLM(S2$IP-LLM)を用いたセマンティック空間インフォームドプロンプト学習を提案し,事前学習された意味空間と時系列埋め込み空間とを整合させる。
提案した$S2$IP-LLMは,最先端のベースラインよりも優れた予測性能が得られることを示す。
論文 参考訳(メタデータ) (2024-03-09T05:20:48Z) - How Can Large Language Models Understand Spatial-Temporal Data? [12.968952073740796]
本稿では,時空間予測に大規模言語モデルを活用する革新的なアプローチSTG-LLMを紹介する。
1 STG-Tokenizer: この空間時間グラフトークンは、複雑なグラフデータを、空間的および時間的関係の両方を捉える簡潔なトークンに変換する; 2) STG-Adapter: 線形符号化層と復号層からなるこの最小限のアダプタは、トークン化されたデータとLCMの理解のギャップを埋める。
論文 参考訳(メタデータ) (2024-01-25T14:03:15Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Spatio-Temporal Self-Supervised Learning for Traffic Flow Prediction [36.77135502344546]
本稿では,新しいST-SSL(Spatio-Supervised Learning)トラフィック予測フレームワークを提案する。
我々のST-SSLは、時空間の畳み込みによって、空間と時間にまたがる情報を符号化する統合モジュール上に構築されている。
4つのベンチマークデータセットの実験では、ST-SSLは様々な最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2022-12-07T10:02:01Z) - Language-Bridged Spatial-Temporal Interaction for Referring Video Object
Segmentation [28.472006665544033]
ビデオオブジェクトセグメンテーションの参照は、ビデオ内の自然言語表現によって参照されるオブジェクトのフォアグラウンドラベルを予測することを目的としている。
従来の手法は3D ConvNetsに依存するか、さらに2D ConvNetsをエンコーダとして組み込んで、複雑な時空間の特徴を抽出する。
本稿では,言語を中間ブリッジとして利用するLBDT(Language-Bridged Duplex Transfer)モジュールを提案する。
論文 参考訳(メタデータ) (2022-06-08T10:12:53Z) - Adaptive Machine Learning for Time-Varying Systems: Low Dimensional
Latent Space Tuning [91.3755431537592]
本稿では,時間変化システムを対象とした適応機械学習手法を提案する。
我々は,エンコーダデコーダCNNのエンコーダ部出力において,非常に高次元(N>100k)の入力を低次元(N2)潜在空間にマッピングする。
そこで本手法では,割り込みを伴わないフィードバックに基づいて,内部の相関関係を学習し,その進化をリアルタイムで追跡する。
論文 参考訳(メタデータ) (2021-07-13T16:05:28Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。