論文の概要: Enhanced Multimodal Video Retrieval System: Integrating Query Expansion and Cross-modal Temporal Event Retrieval
- arxiv url: http://arxiv.org/abs/2512.06334v1
- Date: Sat, 06 Dec 2025 07:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.306108
- Title: Enhanced Multimodal Video Retrieval System: Integrating Query Expansion and Cross-modal Temporal Event Retrieval
- Title(参考訳): 拡張型マルチモーダルビデオ検索システム:クエリ拡張とクロスモーダル時間イベント検索の統合
- Authors: Van-Thinh Vo, Minh-Khoi Nguyen, Minh-Huy Tran, Anh-Quan Nguyen-Tran, Duy-Tan Nguyen, Khanh-Loi Nguyen, Anh-Minh Phan,
- Abstract要約: モーダルな時間的イベント検索フレームワークを提案する。
Kernel Density Mixture Thresholding (KDE-GMM)アルゴリズムが用いられている。
システムには、ユーザクエリを洗練および拡張するために、大きな言語モデル(LLM)が組み込まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia information retrieval from videos remains a challenging problem. While recent systems have advanced multimodal search through semantic, object, and OCR queries - and can retrieve temporally consecutive scenes - they often rely on a single query modality for an entire sequence, limiting robustness in complex temporal contexts. To overcome this, we propose a cross-modal temporal event retrieval framework that enables different query modalities to describe distinct scenes within a sequence. To determine decision thresholds for scene transition and slide change adaptively, we build Kernel Density Gaussian Mixture Thresholding (KDE-GMM) algorithm, ensuring optimal keyframe selection. These extracted keyframes act as compact, high-quality visual exemplars that retain each segment's semantic essence, improving retrieval precision and efficiency. Additionally, the system incorporates a large language model (LLM) to refine and expand user queries, enhancing overall retrieval performance. The proposed system's effectiveness and robustness were demonstrated through its strong results in the Ho Chi Minh AI Challenge 2025.
- Abstract(参考訳): ビデオからのマルチメディア情報検索は依然として難しい問題だ。
最近のシステムでは、セマンティック、オブジェクト、OCRクエリによる高度なマルチモーダル検索があり、時間的に連続するシーンを検索できるが、複雑な時間的コンテキストにおけるロバスト性を制限するために、シーケンス全体に対して単一のクエリモダリティに依存することが多い。
これを解決するために,異なるクエリのモーダルがシーケンス内の異なるシーンを記述できるような,モーダルな時間的イベント検索フレームワークを提案する。
シーン遷移とスライド変化の決定しきい値を適応的に決定するために,KDE-GMMアルゴリズムを構築し,最適なキーフレーム選択を実現する。
これらの抽出されたキーフレームは、各セグメントのセマンティックの本質を保ち、検索精度と効率を向上させる、コンパクトで高品質な視覚的見本として機能する。
さらに,ユーザクエリを洗練・拡張する大規模言語モデル (LLM) が組み込まれ,全体的な検索性能が向上する。
提案システムの有効性と堅牢性は,2025年のホーチミンAIチャレンジの強い成果によって実証された。
関連論文リスト
- OmniRet: Efficient and High-Fidelity Omni Modality Retrieval [51.80205678389465]
OmniRetは,テキスト,視覚,音声の3つの重要なモダリティにまたがる複雑なクエリを処理可能な,最初の検索モデルである。
提案モデルでは,コンポジションクエリ,音声,ビデオ検索のタスクにおいて,最先端のモデルを用いたオンパーパフォーマンスを実現しつつ,大幅な改善を実現している。
論文 参考訳(メタデータ) (2026-03-02T17:19:55Z) - Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - FusAD: Time-Frequency Fusion with Adaptive Denoising for General Time Series Analysis [92.23551599659186]
時系列分析は、金融、医療、産業、気象学などの分野において重要な役割を果たす。
FusADは多様な時系列タスク用に設計された統合分析フレームワークである。
論文 参考訳(メタデータ) (2025-12-16T04:34:27Z) - Unified Interactive Multimodal Moment Retrieval via Cascaded Embedding-Reranking and Temporal-Aware Score Fusion [0.0]
本稿では3つの重要な革新を伴う統合マルチモーダルモーダルモーメント検索システムを提案する。
まず、ケース化された二重埋め込みパイプラインがBEIT-3とSigLIPを組み合わせて広帯域検索を行う。
第二に、時間的認識のスコアリング機構は、ビームサーチによる大きな時間的ギャップに指数的減衰ペナルティを適用している。
第3に、エージェント誘導クエリ分解(GPT-4o)は、あいまいなクエリを自動的に解釈する。
論文 参考訳(メタデータ) (2025-12-15T02:50:43Z) - MADTempo: An Interactive System for Multi-Event Temporal Video Retrieval with Query Augmentation [2.819801450768979]
我々は,AIO_Trinhが開発したビデオ検索フレームワークMADTempoを紹介した。
我々の時間探索機構は、連続したビデオセグメント間で類似度スコアを集約することにより、事象レベルの連続性をキャプチャする。
Googleイメージ検索ベースのフォールバックモジュールは、外部のWebイメージでクエリ表現を拡張する。
論文 参考訳(メタデータ) (2025-12-15T02:25:46Z) - X-ReID: Multi-granularity Information Interaction for Video-Based Visible-Infrared Person Re-Identification [79.37768038337971]
本稿では,VVI-ReIDのためのX-ReIDという新しいクロスモーダル特徴学習フレームワークを提案する。
具体的には、まずクロスモダリティプロトタイプコラボレーション(CPC)を提案する。
次に, 隣接フレームからの短期的相互作用, 長期的クロスフレーム情報融合, クロスモダリティ特徴アライメントを組み込んだMII(Multi-granularity Information Interaction)を設計する。
論文 参考訳(メタデータ) (2025-11-22T07:57:15Z) - Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:04Z) - CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval [70.9990850395981]
CLaMRは、ビデオフレーム、書き起こされた音声、画面上のテキスト、メタデータの4つのモダリティを共同でインデックスするマルチモーダルな遅延相互作用レトリバーである。
CLaMRは2つの重要な革新を通じて動的モダリティ選択を強化するために訓練されている。
論文 参考訳(メタデータ) (2025-06-06T15:02:30Z) - OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval [31.69320295943039]
知識に基づく視覚質問応答(KB-VQA)に対処するための視覚言語検索拡張生成(RAG)が有効なアプローチとなっている
本稿では,複数の粒度とモダリティを調和させて有効性を向上する,粗大で微細なマルチステップ検索を特徴とするマルチモーダルRAGシステムを提案する。
論文 参考訳(メタデータ) (2025-05-10T14:24:41Z) - Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking [3.5291730624600848]
ロングフォーム映像理解は対話型検索システムにおいて重要な課題である。
既存のアプローチは、単一のモデル、非効率なストレージ、不安定な時間探索、コンテキストに依存しない再ランクなどに依存していることが多い。
本稿では、4つの重要な革新を通じてインタラクティブなビデオ検索を強化する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-11T09:36:46Z) - Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。
最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。