論文の概要: Enhancing Subsequent Video Retrieval via Vision-Language Models (VLMs)
- arxiv url: http://arxiv.org/abs/2503.17415v1
- Date: Fri, 21 Mar 2025 01:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:32.494980
- Title: Enhancing Subsequent Video Retrieval via Vision-Language Models (VLMs)
- Title(参考訳): VLM(Vision-Language Models)による映像検索の高速化
- Authors: Yicheng Duan, Xi Huang, Duo Chen,
- Abstract要約: 視覚言語モデル(VLM)は表現学習に優れているが、適応的で時間に敏感なビデオ検索に苦慮している。
本稿では,ベクトル類似性探索とグラフに基づくデータ構造を組み合わせた新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.783822944546971
- License:
- Abstract: The rapid growth of video content demands efficient and precise retrieval systems. While vision-language models (VLMs) excel in representation learning, they often struggle with adaptive, time-sensitive video retrieval. This paper introduces a novel framework that combines vector similarity search with graph-based data structures. By leveraging VLM embeddings for initial retrieval and modeling contextual relationships among video segments, our approach enables adaptive query refinement and improves retrieval accuracy. Experiments demonstrate its precision, scalability, and robustness, offering an effective solution for interactive video retrieval in dynamic environments.
- Abstract(参考訳): ビデオコンテンツの急速な成長は、効率的かつ正確な検索システムを必要とする。
視覚言語モデル(VLM)は表現学習に優れているが、適応的で時間に敏感なビデオ検索に苦慮することが多い。
本稿では,ベクトル類似性探索とグラフに基づくデータ構造を組み合わせた新しいフレームワークを提案する。
ビデオセグメント間のコンテキスト関係の検索とモデル化にVLM埋め込みを活用することにより,適応的なクエリ改善が可能となり,検索精度が向上する。
実験では、その精度、スケーラビリティ、堅牢性を実証し、動的環境におけるインタラクティブなビデオ検索に有効なソリューションを提供する。
関連論文リスト
- Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval [7.313447367245476]
Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。
本稿では,文脈理解度を高めたクエリデバイアスモデルであるQD-VMRを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:56:42Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。