論文の概要: Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking
- arxiv url: http://arxiv.org/abs/2504.08384v1
- Date: Fri, 11 Apr 2025 09:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 20:24:35.25073
- Title: Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking
- Title(参考訳): 効率的かつロバストなモーメント検索システムを目指して--多粒度モデルとテンポラルリグレードのための統一フレームワーク
- Authors: Huu-Loc Tran, Tinh-Anh Nguyen-Nhu, Huu-Phong Phan-Nguyen, Tien-Huy Nguyen, Nhat-Minh Nguyen-Dich, Anh Dao, Huy-Duc Do, Quan Nguyen, Hoang M. Le, Quang-Vinh Dinh,
- Abstract要約: ロングフォーム映像理解は対話型検索システムにおいて重要な課題である。
既存のアプローチは、単一のモデル、非効率なストレージ、不安定な時間探索、コンテキストに依存しない再ランクなどに依存していることが多い。
本稿では、4つの重要な革新を通じてインタラクティブなビデオ検索を強化する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 3.5291730624600848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form video understanding presents significant challenges for interactive retrieval systems, as conventional methods struggle to process extensive video content efficiently. Existing approaches often rely on single models, inefficient storage, unstable temporal search, and context-agnostic reranking, limiting their effectiveness. This paper presents a novel framework to enhance interactive video retrieval through four key innovations: (1) an ensemble search strategy that integrates coarse-grained (CLIP) and fine-grained (BEIT3) models to improve retrieval accuracy, (2) a storage optimization technique that reduces redundancy by selecting representative keyframes via TransNetV2 and deduplication, (3) a temporal search mechanism that localizes video segments using dual queries for start and end points, and (4) a temporal reranking approach that leverages neighboring frame context to stabilize rankings. Evaluated on known-item search and question-answering tasks, our framework demonstrates substantial improvements in retrieval precision, efficiency, and user interpretability, offering a robust solution for real-world interactive video retrieval applications.
- Abstract(参考訳): 従来手法では広範に動画コンテンツを効率よく処理することが困難であったため,対話型検索システムにおいてビデオの長大な理解が大きな課題となっている。
既存のアプローチは、しばしば単一のモデル、非効率なストレージ、不安定な時間探索、文脈に依存しない再ランクに頼り、その有効性を制限している。
本稿では,(1)粗粒度(CLIP)と細粒度(BEIT3)モデルを統合して検索精度を向上させるアンサンブル検索手法,(2)TransNetV2を介して代表キーフレームを選択して冗長性を低下させるストレージ最適化手法,(3)開始点と終了点の二重クエリを用いてビデオセグメントをローカライズする時間的検索機構,(4)隣接するフレームコンテキストを利用してランク付けを安定化する時間的再ランク化手法を提案する。
本フレームワークは,検索精度,効率,ユーザ解釈性を大幅に向上させ,実世界の対話型ビデオ検索アプリケーションに堅牢なソリューションを提供する。
関連論文リスト
- DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - A Lightweight Moment Retrieval System with Global Re-Ranking and Robust Adaptive Bidirectional Temporal Search [3.4271696759611068]
デジタルビデオコンテンツの指数的成長は、モーメントレベルのビデオ検索において重要な課題となっている。
現在の検索システムは、計算の非効率性、時間的文脈制限、動画コンテンツをナビゲートする本質的な複雑さによって制約されている。
論文 参考訳(メタデータ) (2025-04-12T17:49:46Z) - Enhancing Subsequent Video Retrieval via Vision-Language Models (VLMs) [3.783822944546971]
視覚言語モデル(VLM)は表現学習に優れているが、適応的で時間に敏感なビデオ検索に苦慮している。
本稿では,ベクトル類似性探索とグラフに基づくデータ構造を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T01:11:14Z) - Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding [23.022070084937603]
本稿では,視覚意味論理探索のパラダイムの下で選択を再構成する意味論的検索フレームワークを提案する。
提案手法は,キーフレーム選択の指標を手動でアノテートしたベンチマーク上で,新たなSOTA性能を確立する。
論文 参考訳(メタデータ) (2025-03-17T13:07:34Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Faster Video Moment Retrieval with Point-Level Supervision [70.51822333023145]
Video Moment Retrieval (VMR)は、自然言語クエリでトリミングされていないビデオから最も関連性の高いイベントを取得することを目的としている。
既存のVMRメソッドには2つの欠陥がある。
CFMR(Cheaper and Faster Moment Retrieval)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:53:50Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。