論文の概要: LSTP: Language-guided Spatial-Temporal Prompt Learning for Long-form
Video-Text Understanding
- arxiv url: http://arxiv.org/abs/2402.16050v1
- Date: Sun, 25 Feb 2024 10:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:32:12.008365
- Title: LSTP: Language-guided Spatial-Temporal Prompt Learning for Long-form
Video-Text Understanding
- Title(参考訳): lstp: 長文映像理解のための時空間学習
- Authors: Yuxuan Wang, Yueqian Wang, Pengfei Wu, Jianxin Liang, Dongyan Zhao,
Zilong Zheng
- Abstract要約: 言語誘導型空間確率学習(LSTP)という新しい手法を導入する。
このアプローチでは、時間的情報を利用して関連ビデオコンテンツを効率的に抽出する光フローを予め備えた時間的プロンプトサンプリング(TPS)と、視覚的要素とテキスト的要素間の複雑な空間関係を正確にキャプチャする空間的プロンプトソルバ(SPS)の2つの重要なコンポーネントを特徴とする。
TPSとSPSを協調学習戦略で調和させることで, 計算効率, 時間的理解, 時空間的アライメントを著しく向上させる。
- 参考スコア(独自算出の注目度): 48.83009641950664
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite progress in video-language modeling, the computational challenge of
interpreting long-form videos in response to task-specific linguistic queries
persists, largely due to the complexity of high-dimensional video data and the
misalignment between language and visual cues over space and time. To tackle
this issue, we introduce a novel approach called Language-guided
Spatial-Temporal Prompt Learning (LSTP). This approach features two key
components: a Temporal Prompt Sampler (TPS) with optical flow prior that
leverages temporal information to efficiently extract relevant video content,
and a Spatial Prompt Solver (SPS) that adeptly captures the intricate spatial
relationships between visual and textual elements. By harmonizing TPS and SPS
with a cohesive training strategy, our framework significantly enhances
computational efficiency, temporal understanding, and spatial-temporal
alignment. Empirical evaluations across two challenging tasks--video question
answering and temporal question grounding in videos--using a variety of
video-language pretrainings (VLPs) and large language models (LLMs) demonstrate
the superior performance, speed, and versatility of our proposed LSTP paradigm.
- Abstract(参考訳): ビデオ言語モデリングの進歩にもかかわらず、タスク固有の言語クエリに対するロングフォームビデオの解釈という計算上の課題は、高次元ビデオデータの複雑さと、空間的および時間的な言語と視覚的手がかりの相違が主な原因である。
この問題に対処するために,言語誘導型時空間プロンプト学習(LSTP)という新しいアプローチを導入する。
このアプローチは、時間的情報を利用して関連ビデオコンテンツを効率的に抽出する光フローを先行する時間的プロンプトサンプリング(TPS)と、視覚的要素とテキスト的要素の間の複雑な空間的関係を包含する空間的プロンプトソルバー(SPS)の2つの重要な構成要素を特徴とする。
TPSとSPSを協調学習戦略で調和させることで,計算効率,時間的理解,空間時間的アライメントを著しく向上させる。
ビデオ言語事前学習(VLP)と大規模言語モデル(LLM)を多用したビデオ質問応答と時間的質問の時間的評価により,提案したLSTPパラダイムの優れた性能,速度,汎用性を実証した。
関連論文リスト
- Grounding-Prompter: Prompting LLM with Multimodal Information for
Temporal Sentence Grounding in Long Videos [42.32528440002539]
テンポラル・センテンス・グラウンドディング(TSG)は、与えられた自然言語クエリに基づいてビデオからモーメントをローカライズすることを目的としている。
既存の作品は、主にショートビデオ用に設計されており、長いビデオではTSGを処理できない。
LLMにマルチモーダル情報を持たせることで、長いビデオでTSGを実行できるグラウンディング・プロンプター法を提案する。
論文 参考訳(メタデータ) (2023-12-28T16:54:21Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - BiLL-VTG: Bridging Large Language Models and Lightweight Visual Tools
for Video-based Texts Generation [47.02859025575576]
BiLL-VTGは、ビデオの推論に大規模な言語モデルを活用する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令を用いて対応する映像イベントをローカライズする。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。