論文の概要: Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking
- arxiv url: http://arxiv.org/abs/2504.08384v1
- Date: Fri, 11 Apr 2025 09:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:51.488922
- Title: Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking
- Title(参考訳): 効率的かつロバストなモーメント検索システムを目指して--多粒度モデルとテンポラルリグレードのための統一フレームワーク
- Authors: Huu-Loc Tran, Tinh-Anh Nguyen-Nhu, Huu-Phong Phan-Nguyen, Tien-Huy Nguyen, Nhat-Minh Nguyen-Dich, Anh Dao, Huy-Duc Do, Quan Nguyen, Hoang M. Le, Quang-Vinh Dinh,
- Abstract要約: ロングフォーム映像理解は対話型検索システムにおいて重要な課題である。
既存のアプローチは、単一のモデル、非効率なストレージ、不安定な時間探索、コンテキストに依存しない再ランクなどに依存していることが多い。
本稿では、4つの重要な革新を通じてインタラクティブなビデオ検索を強化する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 3.5291730624600848
- License:
- Abstract: Long-form video understanding presents significant challenges for interactive retrieval systems, as conventional methods struggle to process extensive video content efficiently. Existing approaches often rely on single models, inefficient storage, unstable temporal search, and context-agnostic reranking, limiting their effectiveness. This paper presents a novel framework to enhance interactive video retrieval through four key innovations: (1) an ensemble search strategy that integrates coarse-grained (CLIP) and fine-grained (BEIT3) models to improve retrieval accuracy, (2) a storage optimization technique that reduces redundancy by selecting representative keyframes via TransNetV2 and deduplication, (3) a temporal search mechanism that localizes video segments using dual queries for start and end points, and (4) a temporal reranking approach that leverages neighboring frame context to stabilize rankings. Evaluated on known-item search and question-answering tasks, our framework demonstrates substantial improvements in retrieval precision, efficiency, and user interpretability, offering a robust solution for real-world interactive video retrieval applications.
- Abstract(参考訳): 従来手法では広範に動画コンテンツを効率よく処理することが困難であったため,対話型検索システムにおいてビデオの長大な理解が大きな課題となっている。
既存のアプローチは、しばしば単一のモデル、非効率なストレージ、不安定な時間探索、文脈に依存しない再ランクに頼り、その有効性を制限している。
本稿では,(1)粗粒度(CLIP)と細粒度(BEIT3)モデルを統合して検索精度を向上させるアンサンブル検索手法,(2)TransNetV2を介して代表キーフレームを選択して冗長性を低下させるストレージ最適化手法,(3)開始点と終了点の二重クエリを用いてビデオセグメントをローカライズする時間的検索機構,(4)隣接するフレームコンテキストを利用してランク付けを安定化する時間的再ランク化手法を提案する。
本フレームワークは,検索精度,効率,ユーザ解釈性を大幅に向上させ,実世界の対話型ビデオ検索アプリケーションに堅牢なソリューションを提供する。
関連論文リスト
- A Flexible and Scalable Framework for Video Moment Search [51.47907684209207]
本稿では,テキストクエリにマッチする任意の長さの動画のコレクションからランク付けされたモーメントのリストを取得するためのフレキシブルなフレームワークを提案する。
SPR(Segment-Proposal-Ranking)と呼ばれる我々のフレームワークは,探索プロセスを,セグメント検索,提案生成,モーメント改善という3つの独立した段階に単純化する。
TVR-Rankingデータセットの評価から,我々のフレームワークは,計算コストと処理時間を大幅に削減して最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2025-01-09T08:54:19Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Faster Video Moment Retrieval with Point-Level Supervision [70.51822333023145]
Video Moment Retrieval (VMR)は、自然言語クエリでトリミングされていないビデオから最も関連性の高いイベントを取得することを目的としている。
既存のVMRメソッドには2つの欠陥がある。
CFMR(Cheaper and Faster Moment Retrieval)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:53:50Z) - Self-supervised Video Retrieval Transformer Network [10.456881328982586]
SVRTNは,ラベルのないデータから映像表現を学習するための自己教師あり学習法である。
トランスフォーマー構造を利用してフレームレベルの機能をクリップレベルに集約し、ストレージスペースと検索の複雑さを減らす。
クリップフレーム間の相互作用から相補的および識別的な情報を学び、フレームの置換や、より柔軟な検索方法をサポートする不変性を欠くことができる。
論文 参考訳(メタデータ) (2021-04-16T09:43:45Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。