論文の概要: SVFSearch: A Multimodal Knowledge-Intensive Benchmark for Short-Video Frame Search in the Gaming Vertical Domain
- arxiv url: http://arxiv.org/abs/2605.17946v2
- Date: Wed, 20 May 2026 03:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.31051
- Title: SVFSearch: A Multimodal Knowledge-Intensive Benchmark for Short-Video Frame Search in the Gaming Vertical Domain
- Title(参考訳): SVFSearch: ゲーム垂直領域におけるショートビデオフレーム検索のためのマルチモーダルな知識集約ベンチマーク
- Authors: Lingtao Mao, Huangyu Dai, Xinyu Sun, Zihan Liang, Ben Chen, Chenyi Lei, Wenwu Ou,
- Abstract要約: 中国のゲーム分野におけるショートビデオフレーム検索のための最初のオープンベンチマークであるSVFSearchを紹介した。
我々は、直接QAやRAGワークフローからプラン・アクト・リプランエージェント、学習された検索モデルに至るまで、代表的パラダイムを評価する。
その結果、モデルのみの回答、実用的なエージェント検索、およびオラクル知識の間に大きなギャップがあることが明らかになった。
- 参考スコア(独自算出の注目度): 11.397893639012272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models are increasingly used as agent backbones that understand multimodal inputs, plan retrieval actions, invoke external tools, and reason over retrieved information. Yet existing benchmarks rarely evaluate this ability in short-video applications, where a paused frame is often visually ambiguous and answering requires vertical, long-tail, and fast-evolving domain knowledge. We introduce SVFSearch, the first open benchmark for short-video frame search in the Chinese gaming domain. SVFSearch contains 5,000 four-choice test examples and 4,198 auxiliary training examples, each centered on a paused game scene from a real short-video clip. To support fair and reproducible evaluation, SVFSearch provides a frozen offline retrieval environment with a game-domain text corpus, a topic-linked image gallery, and text, image, and multimodal retrieval interfaces, avoiding reliance on uncontrolled web search APIs. We evaluate representative paradigms ranging from direct QA and RAG workflow to Plan-Act-Replan agents and learned search models. Results reveal a large gap between model-only answering, practical agentic search, and oracle knowledge: the best open-source direct-QA model reaches 66.4%, the best practical agent achieves 79.1%, and oracle knowledge reaches 95.4%. Further analysis exposes bottlenecks in visual grounding, retrieval quality, evidence-grounded reasoning, and tool-use behavior, including over-search, answer-only shortcuts, and retrieval-induced misleading.
- Abstract(参考訳): マルチモーダルな言語モデルは、多モーダル入力、計画検索アクション、外部ツールの呼び出し、検索された情報に対する推論を理解するエージェントバックボーンとして、ますます使われている。
しかし、既存のベンチマークでは、停止フレームが視覚的に曖昧で、答えには垂直で長い尾を持ち、急速に進化するドメイン知識が必要であるという、短いビデオアプリケーションでは、この能力を評価することはめったにない。
中国のゲーム分野におけるショートビデオフレーム検索のための最初のオープンベンチマークであるSVFSearchを紹介した。
SVFSearchには5000の4つの選択テスト例と4,198の補助トレーニング例が含まれており、それぞれが実際のショートビデオクリップから一時停止されたゲームシーンを中心にしている。
公正かつ再現可能な評価をサポートするために、SVFSearchは、ゲームドメインのテキストコーパス、トピックリンクされたイメージギャラリー、テキスト、画像、マルチモーダル検索インターフェースを備えた凍結したオフライン検索環境を提供し、制御されていないWeb検索APIに依存しない。
我々は、直接QAやRAGワークフローからプラン・アクト・リプランエージェント、学習された検索モデルに至るまで、代表的パラダイムを評価する。
結果は、モデルのみの回答、実用的なエージェント検索、およびオラクル知識の間に大きなギャップがあることを明らかにしている: 最良のオープンソースダイレクトQAモデルは66.4%、最も優れた実践エージェントは79.1%、オラクル知識は95.4%である。
さらなる分析は、過剰検索、回答のみのショートカット、検索による誤解など、視覚的グラウンドニング、検索品質、エビデンスグラウンドの推論、ツール使用行動のボトルネックを露呈する。
関連論文リスト
- VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents [27.574370658412864]
視覚ネイティブ検索のための新しいベンチマークVisBrowse-Benchを紹介した。
複数のドメインをカバーする169のVQAインスタンスを含んでいる。
探索過程におけるモデルの視覚的推論能力を評価する。
論文 参考訳(メタデータ) (2026-03-17T09:24:13Z) - MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents [57.32877731797049]
MultiHaystackは、大規模なクロスモーダル条件下での検索と推論の両方を評価するために設計された最初のベンチマークである。
モデルが対応するエビデンスを付与した場合,その性能は,全コーパスからそのエビデンスを取得するために必要な場合,急激に低下することがわかった。
論文 参考訳(メタデータ) (2026-03-05T21:43:02Z) - Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - Video-BrowseComp: Benchmarking Agentic Video Research on Open Web [64.53060049124961]
Video-BrowseCompは、オープンウェブのエージェントによるビデオ推論に適した210の質問からなるベンチマークである。
これは時間的視覚的証拠に必須に依存しており、回答はテキスト検索のみでは導き出せないことを保証している。
初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
論文 参考訳(メタデータ) (2025-12-28T19:08:27Z) - MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents [44.63565009665076]
マルチモーダル理解を強制する311タスクのベンチマークであるMMSearch-Plusを紹介する。
標準ブラウジングツールとset-of-mark(SoM)モジュールを備えたモデルに依存しないエージェントフレームワークを提供する。
SoMは、プロファイナンス対応のズーム・アンド・リトリーブを可能にし、マルチステップ推論におけるロバスト性を改善する。
論文 参考訳(メタデータ) (2025-08-29T09:58:27Z) - MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding [22.400847202448478]
長いビデオ理解は、大言語モデル(ML)に重大な課題をもたらす
VisualSubtitleation (VSI)はサブタイトル、セマンティックタイムスタンプ、シーン境界を統合されたマルチモーダル検索プロセスに統合する。
提案手法は,ビデオフレームの視覚情報と補完的なテキスト情報とを,二重ストリーム検索機構を用いてキャプチャする。
論文 参考訳(メタデータ) (2025-08-09T07:38:48Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - T*: Re-thinking Temporal Search for Long-Form Video Understanding [66.72243342954823]
現在の時間探索法は、Longvideobenchサブセットで2.1%の時間F1スコアしか達成していない。
画像中の視覚探索に触発されて,空間探索として高価な時間探索を再構成する軽量な時間探索フレームワークT*を提案する。
大規模な実験により、T*と既存の方法を統合することにより、SOTAの長めのビデオ理解が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-03T04:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。