論文の概要: Beyond Closed-Pool Video Retrieval: A Benchmark and Agent Framework for Real-World Video Search and Moment Localization
- arxiv url: http://arxiv.org/abs/2602.10159v1
- Date: Tue, 10 Feb 2026 03:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.2019
- Title: Beyond Closed-Pool Video Retrieval: A Benchmark and Agent Framework for Real-World Video Search and Moment Localization
- Title(参考訳): クローズドプールビデオ検索を超えて: リアルタイムビデオ検索とモーメントローカライゼーションのためのベンチマークおよびエージェントフレームワーク
- Authors: Tao Yu, Yujia Yang, Haopeng Jin, Junhao Gong, Xinlong Chen, Yuxuan Zhou, Shanbin Zhang, Jiabing Yang, Xinming Wang, Hongzhu Yi, Ping Nie, Kai Zou, Zhang Zhang, Yan Huang, Liang Wang, Yeshani, Ruiwen Tao, Jin Ma, Haijin Liang, Jinwen Luo,
- Abstract要約: 実世界のビデオメモリ検索を総合的に評価するシステムである textbfRVMS-Bench について述べる。
textbf1,440のサンプルからなり、textbf20の多様なカテゴリとtextbffourの持続時間グループで構成されている。
我々は,人間のリコール-検索-検証の認知過程をシミュレートするために,帰納的推論を用いたエージェントフレームワークであるtextbfRACLOを提案する。
- 参考スコア(独自算出の注目度): 23.065896054579085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional video retrieval benchmarks focus on matching precise descriptions to closed video pools, failing to reflect real-world searches characterized by fuzzy, multi-dimensional memories on the open web. We present \textbf{RVMS-Bench}, a comprehensive system for evaluating real-world video memory search. It consists of \textbf{1,440 samples} spanning \textbf{20 diverse categories} and \textbf{four duration groups}, sourced from \textbf{real-world open-web videos}. RVMS-Bench utilizes a hierarchical description framework encompassing \textbf{Global Impression, Key Moment, Temporal Context, and Auditory Memory} to mimic realistic multi-dimensional search cues, with all samples strictly verified via a human-in-the-loop protocol. We further propose \textbf{RACLO}, an agentic framework that employs abductive reasoning to simulate the human ``Recall-Search-Verify'' cognitive process, effectively addressing the challenge of searching for videos via fuzzy memories in the real world. Experiments reveal that existing MLLMs still demonstrate insufficient capabilities in real-world Video Retrieval and Moment Localization based on fuzzy memories. We believe this work will facilitate the advancement of video retrieval robustness in real-world unstructured scenarios.
- Abstract(参考訳): 従来のビデオ検索ベンチマークでは、クローズドビデオプールへの正確な記述のマッチングに重点を置いており、オープンウェブ上のファジィな多次元記憶を特徴とする現実世界の検索を反映していない。
本稿では,実世界のビデオメモリ検索を総合的に評価するシステムである‘textbf{RVMS-Bench} を提案する。
それは \textbf{1,440 sample} と \textbf{four duration group} にまたがる \textbf{1,440 sample} と、 \textbf{real-world open-web video} から成り立っている。
RVMS-Benchは、実際の多次元検索キューを模倣するために、‘textbf{Global Impression, Key Moment, Temporal Context, and Auditory Memory} を含む階層的な記述フレームワークを使用し、すべてのサンプルはヒューマン・イン・ザ・ループプロトコルを通じて厳密に検証されている。
さらに,「リコール-検索-検証」の認知過程をシミュレートするために帰納的推論を用いたエージェントフレームワークである「textbf{RACLO}」を提案する。
実験によると、既存のMLLMはファジィメモリに基づく実世界のビデオ検索とモーメントのローカライゼーションにはまだ不十分な能力を示している。
この研究は、現実世界の非構造化シナリオにおけるビデオ検索の堅牢性の向上を促進するだろうと考えている。
関連論文リスト
- Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models [79.77807330964576]
Vision-DeepResearchシステムは複雑なビジュアルテキストのファクトフィンディングに検索エンジンを使用する。
既存のベンチマークはビジュアル検索中心ではない。
2,000のVQAインスタンスからなるVision-DeepResearchベンチマーク(VDR-Bench)を構築した。
論文 参考訳(メタデータ) (2026-02-02T14:53:11Z) - ShotFinder: Imagination-Driven Open-Domain Video Shot Retrieval via Web Search [29.542439490458126]
編集要件をオブジェクト指向のショット記述として形式化するベンチマークであるShotFinderを紹介する。
私たちは、20のテーマカテゴリーにわたるYouTubeから1210の高品質なサンプルを使用し、人間の検証による生成のために大きなモデルを使用します。
提案するShotFinderはテキスト駆動型3段階検索およびローカライゼーションパイプラインである。
論文 参考訳(メタデータ) (2026-01-30T18:01:17Z) - Video-BrowseComp: Benchmarking Agentic Video Research on Open Web [64.53060049124961]
Video-BrowseCompは、オープンウェブのエージェントによるビデオ推論に適した210の質問からなるベンチマークである。
これは時間的視覚的証拠に必須に依存しており、回答はテキスト検索のみでは導き出せないことを保証している。
初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
論文 参考訳(メタデータ) (2025-12-28T19:08:27Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - Grounding-MD: Grounded Video-language Pre-training for Open-World Moment Detection [67.70328796057466]
Grounding-MDは、オープンワールドのモーメント検出に適した、革新的なビデオ言語事前学習フレームワークである。
我々のフレームワークは、構造化されたプロンプト機構を通じて、任意の数のオープンな自然言語クエリを組み込む。
Grounding-MDは特異なセマンティック表現学習能力を示し、多種多様な複雑なクエリ条件を効果的に処理する。
論文 参考訳(メタデータ) (2025-04-20T09:54:25Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。