論文の概要: ShotFinder: Imagination-Driven Open-Domain Video Shot Retrieval via Web Search
- arxiv url: http://arxiv.org/abs/2601.23232v2
- Date: Tue, 03 Feb 2026 03:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.822492
- Title: ShotFinder: Imagination-Driven Open-Domain Video Shot Retrieval via Web Search
- Title(参考訳): ShotFinder: Imagination-Driven Open-Domain Video Shot Retrieval by Web Search
- Authors: Tao Yu, Haopeng Jin, Hao Wang, Shenghua Chai, Yujia Yang, Junhao Gong, Jiaming Guo, Minghui Zhang, Xinlong Chen, Zhenghao Zhang, Yuxuan Zhou, Yufei Xiong, Shanbin Zhang, Jiabing Yang, Hongzhu Yi, Xinming Wang, Cheng Zhong, Xiao Ma, Zhang Zhang, Yan Huang, Liang Wang,
- Abstract要約: 編集要件をオブジェクト指向のショット記述として形式化するベンチマークであるShotFinderを紹介する。
私たちは、20のテーマカテゴリーにわたるYouTubeから1210の高品質なサンプルを使用し、人間の検証による生成のために大きなモデルを使用します。
提案するShotFinderはテキスト駆動型3段階検索およびローカライゼーションパイプラインである。
- 参考スコア(独自算出の注目度): 29.542439490458126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models (LLMs) have made rapid progress in information retrieval, yet existing research has mainly focused on text or static multimodal settings. Open-domain video shot retrieval, which involves richer temporal structure and more complex semantics, still lacks systematic benchmarks and analysis. To fill this gap, we introduce ShotFinder, a benchmark that formalizes editing requirements as keyframe-oriented shot descriptions and introduces five types of controllable single-factor constraints: Temporal order, Color, Visual style, Audio, and Resolution. We curate 1,210 high-quality samples from YouTube across 20 thematic categories, using large models for generation with human verification. Based on the benchmark, we propose ShotFinder, a text-driven three-stage retrieval and localization pipeline: (1) query expansion via video imagination, (2) candidate video retrieval with a search engine, and (3) description-guided temporal localization. Experiments on multiple closed-source and open-source models reveal a significant gap to human performance, with clear imbalance across constraints: temporal localization is relatively tractable, while color and visual style remain major challenges. These results reveal that open-domain video shot retrieval is still a critical capability that multimodal large models have yet to overcome.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は情報検索において急速に進歩しているが,既存の研究はテキストや静的なマルチモーダル設定に重点を置いている。
よりリッチな時間構造とより複雑なセマンティクスを含むオープンドメインのビデオ画像検索は、体系的なベンチマークと分析を欠いている。
このギャップを埋めるために、ShotFinderという、編集要件をキーフレーム指向のショット記述として形式化し、テンポラルオーダー、カラー、ビジュアルスタイル、オーディオ、レゾリューションの5種類のコントロール可能なシングルファクタ制約を導入するベンチマークを紹介します。
我々は、YouTubeから20のテーマカテゴリーにまたがって1,210の高品質なサンプルをキュレートする。
提案するShotFinderは,テキスト駆動型3段階検索・ローカライゼーションパイプラインである。(1)ビデオの想像力によるクエリ拡張,(2)検索エンジンによる候補ビデオ検索,(3)記述誘導時間的ローカライゼーションである。
複数のクローズドソースおよびオープンソースモデルの実験では、人間のパフォーマンスに対する大きなギャップが示されており、制約間の明確な不均衡がある。
これらの結果は,マルチモーダル大モデルがまだ克服できていない重要な機能として,オープンドメインビデオ撮影検索が依然として重要であることを示している。
関連論文リスト
- Video-BrowseComp: Benchmarking Agentic Video Research on Open Web [64.53060049124961]
Video-BrowseCompは、オープンウェブのエージェントによるビデオ推論に適した210の質問からなるベンチマークである。
これは時間的視覚的証拠に必須に依存しており、回答はテキスト検索のみでは導き出せないことを保証している。
初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
論文 参考訳(メタデータ) (2025-12-28T19:08:27Z) - Vidi: Large Multimodal Models for Video Understanding and Editing [38.391725386019324]
本稿では,LMM(Large Multimodal Models)のファミリであるVidiを紹介する。
最初のリリースでは、与えられたテキストクエリに対応する入力ビデオ内の時間範囲を特定する、時間的検索に焦点を当てている。
VUE-TRベンチマークも提案する。
論文 参考訳(メタデータ) (2025-04-22T08:04:45Z) - T*: Re-thinking Temporal Search for Long-Form Video Understanding [66.72243342954823]
現在の時間探索法は、Longvideobenchサブセットで2.1%の時間F1スコアしか達成していない。
画像中の視覚探索に触発されて,空間探索として高価な時間探索を再構成する軽量な時間探索フレームワークT*を提案する。
大規模な実験により、T*と既存の方法を統合することにより、SOTAの長めのビデオ理解が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-03T04:03:10Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。