Fugu-MT 論文翻訳(概要): Enhancing Subsequent Video Retrieval via Vision-Language Models (VLMs)

論文の概要: Enhancing Subsequent Video Retrieval via Vision-Language Models (VLMs)

arxiv url: http://arxiv.org/abs/2503.17415v1
Date: Fri, 21 Mar 2025 01:11:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.633776
Title: Enhancing Subsequent Video Retrieval via Vision-Language Models (VLMs)
Title（参考訳）: VLM(Vision-Language Models)による映像検索の高速化
Authors: Yicheng Duan, Xi Huang, Duo Chen,
Abstract要約: 視覚言語モデル(VLM)は表現学習に優れているが、適応的で時間に敏感なビデオ検索に苦慮している。本稿では,ベクトル類似性探索とグラフに基づくデータ構造を組み合わせた新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 3.783822944546971
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid growth of video content demands efficient and precise retrieval systems. While vision-language models (VLMs) excel in representation learning, they often struggle with adaptive, time-sensitive video retrieval. This paper introduces a novel framework that combines vector similarity search with graph-based data structures. By leveraging VLM embeddings for initial retrieval and modeling contextual relationships among video segments, our approach enables adaptive query refinement and improves retrieval accuracy. Experiments demonstrate its precision, scalability, and robustness, offering an effective solution for interactive video retrieval in dynamic environments.
Abstract（参考訳）: ビデオコンテンツの急速な成長は、効率的かつ正確な検索システムを必要とする。視覚言語モデル(VLM)は表現学習に優れているが、適応的で時間に敏感なビデオ検索に苦慮することが多い。本稿では,ベクトル類似性探索とグラフに基づくデータ構造を組み合わせた新しいフレームワークを提案する。ビデオセグメント間のコンテキスト関係の検索とモデル化にVLM埋め込みを活用することにより,適応的なクエリ改善が可能となり,検索精度が向上する。実験では、その精度、スケーラビリティ、堅牢性を実証し、動的環境におけるインタラクティブなビデオ検索に有効なソリューションを提供する。

関連論文リスト

VideoWeave: A Data-Centric Approach for Efficient Video Understanding [54.5804686337209]
我々は、合成長文学習サンプルを構築して、データ効率を改善するためのシンプルで効果的な方法であるVideoWeaveを提案する。 VideoWeaveは、利用可能なビデオテキストペアを再編成して、固定計算内で時間的多様性を拡大する。我々の結果は、アーキテクチャを変更するのではなく、トレーニングデータを再編成することで、ビデオ言語モデルをトレーニングするためのシンプルでスケーラブルなパスを提供できることを強調している。
論文参考訳（メタデータ） (2026-01-09T20:55:26Z)
FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。 Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文参考訳（メタデータ） (2025-09-28T17:59:43Z)
AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文参考訳（メタデータ） (2025-06-16T15:18:15Z)
Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。 CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文参考訳（メタデータ） (2024-12-14T07:28:38Z)
Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文参考訳（メタデータ） (2024-10-06T15:03:22Z)
QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval [7.313447367245476]
Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。本稿では,文脈理解度を高めたクエリデバイアスモデルであるQD-VMRを提案する。
論文参考訳（メタデータ） (2024-08-23T10:56:42Z)
Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
Context-Enhanced Video Moment Retrieval with Large Language Models [22.283367604425916]
ビデオモーメント検索(VMR)の現在の手法は、特定の環境詳細、キャラクター記述、アクション物語を含む複雑な状況の整合に苦慮している。本稿では,LMR(Large Language Model-Guided Moment Retrieval)アプローチを提案する。大規模な実験により、LMRは最先端の結果を達成し、挑戦的なQVHighlightsとCharades-STAベンチマークにおいて、最も近い競合相手を3.28%、そして4.06%で上回った。
論文参考訳（メタデータ） (2024-05-21T07:12:27Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。 3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文参考訳（メタデータ） (2023-09-01T13:06:50Z)
Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。 HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。 3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文参考訳（メタデータ） (2022-02-07T18:04:10Z)
Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。 VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文参考訳（メタデータ） (2021-05-13T12:54:39Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。