論文の概要: VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding
- arxiv url: http://arxiv.org/abs/2508.06869v1
- Date: Sat, 09 Aug 2025 07:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.587759
- Title: VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding
- Title(参考訳): VSI:ロングビデオ理解を強化するキーフレーム選択のためのビジュアル字幕統合
- Authors: Jianxiang He, Shaoguang Wang, Weiyu Guo, Meisheng Hong, Jungang Li, Yijie Xu, Ziyang Chen, Hui Xiong,
- Abstract要約: 長いビデオ理解は、大言語モデル(ML)に重大な課題をもたらす
VisualSubtitleation (VSI)はサブタイトル、セマンティックタイムスタンプ、シーン境界を統合されたマルチモーダル検索プロセスに統合する。
提案手法は,ビデオフレームの視覚情報と補完的なテキスト情報とを,二重ストリーム検索機構を用いてキャプチャする。
- 参考スコア(独自算出の注目度): 19.805555872575464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long video understanding presents a significant challenge to multimodal large language models (MLLMs) primarily due to the immense data scale. A critical and widely adopted strategy for making this task computationally tractable is keyframe retrieval, which seeks to identify a sparse set of video frames that are most salient to a given textual query. However, the efficacy of this approach is hindered by weak multimodal alignment between textual queries and visual content and fails to capture the complex temporal semantic information required for precise reasoning. To address this, we propose Visual-Subtitle Integeration(VSI), a multimodal keyframe search method that integrates subtitles, timestamps, and scene boundaries into a unified multimodal search process. The proposed method captures the visual information of video frames as well as the complementary textual information through a dual-stream search mechanism by Video Search Stream as well as Subtitle Match Stream, respectively, and improves the keyframe search accuracy through the interaction of the two search streams. Experimental results show that VSI achieve 40.00% key frame localization accuracy on the text-relevant subset of LongVideoBench and 68.48% accuracy on downstream long Video-QA tasks, surpassing competitive baselines by 20.35% and 15.79%, respectively. Furthermore, on the LongVideoBench, VSI achieved state-of-the-art(SOTA) in medium-to-long video-QA tasks, demonstrating the robustness and generalizability of the proposed multimodal search strategy.
- Abstract(参考訳): 長いビデオ理解は、主に膨大なデータスケールのため、マルチモーダルな大規模言語モデル(MLLM)にとって重要な課題である。
このタスクを計算可能にするための重要かつ広く採用されている戦略はキーフレーム検索であり、与えられたテキストクエリに最も適したビデオフレームのスパースセットを特定することを目的としている。
しかし,本手法の有効性は,テキストクエリと視覚コンテンツ間のマルチモーダルアライメントの弱さによって妨げられ,正確な推論に必要な複雑な時間的意味情報の取得に失敗する。
そこで本研究では,サブタイトル,タイムスタンプ,シーン境界を統一したマルチモーダル検索プロセスに統合する,マルチモーダルなキーフレーム探索手法であるVisual-Subtitle Integeration(VSI)を提案する。
提案手法は,ビデオ検索ストリームとサブタイトルマッチングストリームによる二重ストリーム検索機構により,映像フレームの視覚情報と相補的なテキスト情報をキャプチャし,この2つの検索ストリームの相互作用によって,キーフレームの検索精度を向上させる。
実験の結果、VSIはLongVideoBenchのテキスト関連サブセットで40.00%のキーフレームローカライズ精度、下流のVideo-QAタスクで68.48%の精度を実現し、それぞれ20.35%と15.79%の競合ベースラインを超えた。
さらに、LongVideoBenchにおいて、VSIは、提案したマルチモーダル検索戦略の堅牢性と一般化性を実証し、中長期ビデオQAタスクにおける最先端(SOTA)を達成した。
関連論文リスト
- Re-thinking Temporal Search for Long-Form Video Understanding [67.12801626407135]
現在の時間探索法は、Longvideobenchサブセットで2.1%の時間F1スコアしか達成していない。
画像中の視覚探索に触発されて,空間探索として高価な時間探索を再構成する軽量な時間探索フレームワークT*を提案する。
大規模な実験により、T*と既存の方法を統合することにより、SOTAの長めのビデオ理解が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-03T04:03:10Z) - Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。
最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T16:21:23Z) - MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。