論文の概要: Enhanced Multimodal Video Retrieval System: Integrating Query Expansion and Cross-modal Temporal Event Retrieval
- arxiv url: http://arxiv.org/abs/2512.06334v1
- Date: Sat, 06 Dec 2025 07:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.306108
- Title: Enhanced Multimodal Video Retrieval System: Integrating Query Expansion and Cross-modal Temporal Event Retrieval
- Title(参考訳): 拡張型マルチモーダルビデオ検索システム:クエリ拡張とクロスモーダル時間イベント検索の統合
- Authors: Van-Thinh Vo, Minh-Khoi Nguyen, Minh-Huy Tran, Anh-Quan Nguyen-Tran, Duy-Tan Nguyen, Khanh-Loi Nguyen, Anh-Minh Phan,
- Abstract要約: モーダルな時間的イベント検索フレームワークを提案する。
Kernel Density Mixture Thresholding (KDE-GMM)アルゴリズムが用いられている。
システムには、ユーザクエリを洗練および拡張するために、大きな言語モデル(LLM)が組み込まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia information retrieval from videos remains a challenging problem. While recent systems have advanced multimodal search through semantic, object, and OCR queries - and can retrieve temporally consecutive scenes - they often rely on a single query modality for an entire sequence, limiting robustness in complex temporal contexts. To overcome this, we propose a cross-modal temporal event retrieval framework that enables different query modalities to describe distinct scenes within a sequence. To determine decision thresholds for scene transition and slide change adaptively, we build Kernel Density Gaussian Mixture Thresholding (KDE-GMM) algorithm, ensuring optimal keyframe selection. These extracted keyframes act as compact, high-quality visual exemplars that retain each segment's semantic essence, improving retrieval precision and efficiency. Additionally, the system incorporates a large language model (LLM) to refine and expand user queries, enhancing overall retrieval performance. The proposed system's effectiveness and robustness were demonstrated through its strong results in the Ho Chi Minh AI Challenge 2025.
- Abstract(参考訳): ビデオからのマルチメディア情報検索は依然として難しい問題だ。
最近のシステムでは、セマンティック、オブジェクト、OCRクエリによる高度なマルチモーダル検索があり、時間的に連続するシーンを検索できるが、複雑な時間的コンテキストにおけるロバスト性を制限するために、シーケンス全体に対して単一のクエリモダリティに依存することが多い。
これを解決するために,異なるクエリのモーダルがシーケンス内の異なるシーンを記述できるような,モーダルな時間的イベント検索フレームワークを提案する。
シーン遷移とスライド変化の決定しきい値を適応的に決定するために,KDE-GMMアルゴリズムを構築し,最適なキーフレーム選択を実現する。
これらの抽出されたキーフレームは、各セグメントのセマンティックの本質を保ち、検索精度と効率を向上させる、コンパクトで高品質な視覚的見本として機能する。
さらに,ユーザクエリを洗練・拡張する大規模言語モデル (LLM) が組み込まれ,全体的な検索性能が向上する。
提案システムの有効性と堅牢性は,2025年のホーチミンAIチャレンジの強い成果によって実証された。
関連論文リスト
- X-ReID: Multi-granularity Information Interaction for Video-Based Visible-Infrared Person Re-Identification [79.37768038337971]
本稿では,VVI-ReIDのためのX-ReIDという新しいクロスモーダル特徴学習フレームワークを提案する。
具体的には、まずクロスモダリティプロトタイプコラボレーション(CPC)を提案する。
次に, 隣接フレームからの短期的相互作用, 長期的クロスフレーム情報融合, クロスモダリティ特徴アライメントを組み込んだMII(Multi-granularity Information Interaction)を設計する。
論文 参考訳(メタデータ) (2025-11-22T07:57:15Z) - Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:04Z) - CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval [70.9990850395981]
CLaMRは、ビデオフレーム、書き起こされた音声、画面上のテキスト、メタデータの4つのモダリティを共同でインデックスするマルチモーダルな遅延相互作用レトリバーである。
CLaMRは2つの重要な革新を通じて動的モダリティ選択を強化するために訓練されている。
論文 参考訳(メタデータ) (2025-06-06T15:02:30Z) - OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval [31.69320295943039]
知識に基づく視覚質問応答(KB-VQA)に対処するための視覚言語検索拡張生成(RAG)が有効なアプローチとなっている
本稿では,複数の粒度とモダリティを調和させて有効性を向上する,粗大で微細なマルチステップ検索を特徴とするマルチモーダルRAGシステムを提案する。
論文 参考訳(メタデータ) (2025-05-10T14:24:41Z) - Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking [3.5291730624600848]
ロングフォーム映像理解は対話型検索システムにおいて重要な課題である。
既存のアプローチは、単一のモデル、非効率なストレージ、不安定な時間探索、コンテキストに依存しない再ランクなどに依存していることが多い。
本稿では、4つの重要な革新を通じてインタラクティブなビデオ検索を強化する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-11T09:36:46Z) - Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。
最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。