論文の概要: Point to Span: Zero-Shot Moment Retrieval for Navigating Unseen Hour-Long Videos
- arxiv url: http://arxiv.org/abs/2512.10363v1
- Date: Thu, 11 Dec 2025 07:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.244684
- Title: Point to Span: Zero-Shot Moment Retrieval for Navigating Unseen Hour-Long Videos
- Title(参考訳): ゼロショットのモーメントを検索して、見知らぬ時間帯の動画をナビゲートするポイント
- Authors: Mingyu Jeon, Jisoo Yang, Sungjin Han, Jinkwon Hwang, Sunjae Yoon, Jonghee Kim, Junyeoung Kim,
- Abstract要約: Long Video Moment Retrieval(Long Video Moment Retrieval、ZLVMR)は、タスク固有のトレーニングなしで自然言語クエリを使用して、時間長ビデオの時間セグメントを特定するタスクである。
我々は、この非効率な「検索」と「コスト削減」フェーズの課題を克服するための、トレーニング不要のフレームワークである textbfPoint-textbfto-textbfSpan (P2S) を提案する。
P2Sは1時間ビデオの時間的グラウンド化が可能な最初のゼロショットフレームワークである。
- 参考スコア(独自算出の注目度): 10.612030818614604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot Long Video Moment Retrieval (ZLVMR) is the task of identifying temporal segments in hour-long videos using a natural language query without task-specific training. The core technical challenge of LVMR stems from the computational infeasibility of processing entire lengthy videos in a single pass. This limitation has established a 'Search-then-Refine' approach, where candidates are rapidly narrowed down, and only those portions are analyzed, as the dominant paradigm for LVMR. However, existing approaches to this paradigm face severe limitations. Conventional supervised learning suffers from limited scalability and poor generalization, despite substantial resource consumption. Yet, existing zero-shot methods also fail, facing a dual challenge: (1) their heuristic strategies cause a 'search' phase candidate explosion, and (2) the 'refine' phase, which is vulnerable to semantic discrepancy, requires high-cost VLMs for verification, incurring significant computational overhead. We propose \textbf{P}oint-\textbf{to}-\textbf{S}pan (P2S), a novel training-free framework to overcome this challenge of inefficient 'search' and costly 'refine' phases. P2S overcomes these challenges with two key innovations: an 'Adaptive Span Generator' to prevent the search phase candidate explosion, and 'Query Decomposition' to refine candidates without relying on high-cost VLM verification. To our knowledge, P2S is the first zero-shot framework capable of temporal grounding in hour-long videos, outperforming supervised state-of-the-art methods by a significant margin (e.g., +3.7\% on R5@0.1 on MAD).
- Abstract(参考訳): Zero-shot Long Video Moment Retrieval (ZLVMR)は、タスク固有のトレーニングなしで自然言語クエリを使用して、時間長ビデオの時間セグメントを特定するタスクである。
LVMRの中核となる技術的課題は、単一のパスで長大なビデオ全体を処理できないことにある。
この制限は「検索-then-Refine」アプローチを確立し、候補を急速に絞り込み、LVMRの主要なパラダイムとしてその部分のみを分析する。
しかし、このパラダイムに対する既存のアプローチは厳しい制限に直面している。
従来の教師あり学習は、かなりのリソース消費にもかかわらず、スケーラビリティと一般化の不足に悩まされている。
しかし、既存のゼロショット法は、(1)ヒューリスティックな戦略が「探索」フェーズ候補の爆発を引き起こし、(2)セマンティックな不一致に弱い「再定義」フェーズは、検証のために高コストのVLMを必要とし、かなりの計算オーバーヘッドを発生させるという2つの課題に直面している。
我々は,この非効率な「探索」とコストのかかる「再定義」フェーズの課題を克服する,新しいトレーニング不要のフレームワークである \textbf{P}oint-\textbf{to}-\textbf{S}pan (P2S) を提案する。
P2Sは、検索フェーズ候補の爆発を防ぐための'Adaptive Span Generator'と、高コストのVLM検証に頼ることなく候補を洗練するための'Query Decomposition'の2つの重要なイノベーションによって、これらの課題を克服している。
我々の知る限り、P2Sは1時間ビデオの時間的グラウンド化が可能な最初のゼロショットフレームワークであり、監督された最先端の手法をかなりのマージン(MADのR5@0.1では+3.7\%)で上回っている。
関連論文リスト
- VideoTG-R1: Boosting Video Temporal Grounding via Curriculum Reinforcement Learning on Reflected Boundary Annotations [59.40631942092535]
ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、ビデオ内の正確なセグメントを特定することを目的としている。
最近のMLLM(Multimodal Large Language Models)は、強化学習(RL)を通してVTGに取り組むことを約束している。
本稿では,境界アノテーションを反映した新しいカリキュラムRLフレームワークであるVideoTG-R1を提案する。
論文 参考訳(メタデータ) (2025-10-27T14:55:38Z) - InfVSR: Breaking Length Limits of Generic Video Super-Resolution [40.30527504651693]
InfVSRは、長いシーケンスに対する自己回帰1ステップ拡散パラダイムである。
拡散過程を1ステップに効率よく蒸留し,パッチワイズ画素監視とクロスチャンク分布マッチングを行う。
提案手法は,長大なVSRのフロンティアを推し進め,セマンティック一貫性を向上して最先端の品質を実現し,既存の手法よりも最大58倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-10-01T14:21:45Z) - SparseD: Sparse Attention for Diffusion Language Models [98.05780626106555]
拡散言語モデル(DLM)は自己回帰モデル(AR)に代わる有望な代替手段を提供する
既存のオープンソースDLMは、高い推論遅延に悩まされている。
DLMのための新しいスパースアテンション手法であるスパースDを提案する。
論文 参考訳(メタデータ) (2025-09-28T18:10:10Z) - VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models [29.706347050700867]
ビデオベース長周期因果推論(VCRBench)という新しいベンチマークを導入する。
VCRBenchは、LVLM(Large Video Language Model)が特定の目標を達成するために必要なイベントを特定し、推論し、正しくシーケンスできるかどうかをテストする。
本稿では,ビデオに基づく因果推論を,ビデオ認識と因果推論の2つのサブタスクに分割するモジュラーアプローチである認識推論分解(RRD)を提案する。
論文 参考訳(メタデータ) (2025-05-13T11:35:58Z) - When the Future Becomes the Past: Taming Temporal Correspondence for Self-supervised Video Representation Learning [80.09819072780193]
ビデオ表現学習における時間対応を利用した自己教師型フレームワーク(T-CoRe)を提案する。
T-CoReの実験は、複数の下流タスクに対して一貫して優れた性能を示し、ビデオ表現学習の有効性を実証している。
論文 参考訳(メタデータ) (2025-03-19T10:50:03Z) - Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.26400319795876]
時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:04:20Z) - Faster Video Moment Retrieval with Point-Level Supervision [70.51822333023145]
Video Moment Retrieval (VMR)は、自然言語クエリでトリミングされていないビデオから最も関連性の高いイベントを取得することを目的としている。
既存のVMRメソッドには2つの欠陥がある。
CFMR(Cheaper and Faster Moment Retrieval)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。