論文の概要: LogSTOP: Temporal Scores over Prediction Sequences for Matching and Retrieval
- arxiv url: http://arxiv.org/abs/2510.06512v1
- Date: Tue, 07 Oct 2025 23:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.224458
- Title: LogSTOP: Temporal Scores over Prediction Sequences for Matching and Retrieval
- Title(参考訳): LogSTOP: マッチングと検索のための予測シーケンスに関する時間スコア
- Authors: Avishree Khare, Hideki Okamoto, Bardh Hoxha, Georgios Fainekos, Rajeev Alur,
- Abstract要約: 本研究では,局所特性に対する雑音の多いスコア予測器を与えられた場合,時間的特性(STOP)のスコアをシーケンス上に割り当てる問題を定式化する。
次に、線形時間論理で表される時間特性に対して、これらのスコアを効率的に計算できるLogSTOPというスコア関数を提案する。
LogSTOP は YOLO と HuBERT と組み合わせて,Large Vision / Audio Language Models およびその他の時間論理ベースのベースラインを少なくとも 16% 上回った。
- 参考スコア(独自算出の注目度): 7.7871763302632635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural models such as YOLO and HuBERT can be used to detect local properties such as objects ("car") and emotions ("angry") in individual frames of videos and audio clips respectively. The likelihood of these detections is indicated by scores in [0, 1]. Lifting these scores to temporal properties over sequences can be useful for several downstream applications such as query matching (e.g., "does the speaker eventually sound happy in this audio clip?"), and ranked retrieval (e.g., "retrieve top 5 videos with a 10 second scene where a car is detected until a pedestrian is detected"). In this work, we formalize this problem of assigning Scores for TempOral Properties (STOPs) over sequences, given potentially noisy score predictors for local properties. We then propose a scoring function called LogSTOP that can efficiently compute these scores for temporal properties represented in Linear Temporal Logic. Empirically, LogSTOP, with YOLO and HuBERT, outperforms Large Vision / Audio Language Models and other Temporal Logic-based baselines by at least 16% on query matching with temporal properties over objects-in-videos and emotions-in-speech respectively. Similarly, on ranked retrieval with temporal properties over objects and actions in videos, LogSTOP with Grounding DINO and SlowR50 reports at least a 19% and 16% increase in mean average precision and recall over zero-shot text-to-video retrieval baselines respectively.
- Abstract(参考訳): YOLOやHuBERTといったニューラルモデルは、ビデオの個々のフレームとオーディオクリップの個々のフレームにおけるオブジェクト(車)や感情(怒り)といった局所的な特性を検出するために使用できる。
これらの検出の可能性は[0, 1]のスコアによって示される。
これらのスコアをシーケンス上の時間的特性にリフティングすることは、クエリマッチング(例:「スピーカーは最終的にこのオーディオクリップで幸せに聞こえるか?」)やランキング検索(例:「歩行者が検出されるまで車が検出される10秒のシーンでトップ5動画を検索する」など、いくつかのダウンストリームアプリケーションに有用である。
そこで本研究では, 局所特性に対する雑音のあるスコア予測器を与えられた場合, テンポラル特性(STOP)のスコアを列上に割り当てる問題を定式化する。
次に、線形時間論理で表される時間特性に対して、これらのスコアを効率的に計算できるLogSTOPというスコア関数を提案する。
LogSTOP は YOLO と HuBERT と組み合わせて,Large Vision / Audio Language Models およびその他の時間論理ベースのベースラインを少なくとも 16% 上回った。
同様に、ビデオにおけるオブジェクトとアクションの時間的特性によるランク付け検索では、Grounding DINOとSlowR50によるLogSTOPでは、平均精度が19%、平均精度が16%上昇し、ゼロショットのテキスト対ビデオ検索ベースラインが16%上昇している。
関連論文リスト
- TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos [50.04992164981131]
ビデオの時間的ローカライゼーションは、ビデオの理解には不可欠だが、それでも難しい。
このタスクは、時間的アクションローカライゼーション、時間的ビデオグラウンドニング、モーメント検索、ジェネリックイベント境界検出など、いくつかのサブタスクを含む。
複数のタスクを処理できるタイムスタンプローカライゼーションのための統合エンドツーエンドフレームワークであるTimeLocを提案する。
論文 参考訳(メタデータ) (2025-03-09T09:11:26Z) - TimeRefine: Temporal Grounding with Time Refining Video LLM [75.99665302872901]
ビデオの時間的接地は、テキストのプロンプトが与えられたビデオの中で、関連する時間的境界をローカライズすることを目的としている。
我々は時間的接地タスクを時間的精錬タスクとして再構成する。
我々は、予測セグメントが基底真理からさらに逸脱した場合、モデルをよりペナルティ化する補助予測ヘッドを組み込む。
論文 参考訳(メタデータ) (2024-12-12T18:59:11Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval [20.493241098064665]
ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。
モーダル固有のPseudo Query Generation Network (MPGN) を提案する。
MPGNは、選択した時間モーメントから視覚情報とテキスト情報の両方を活用する疑似クエリを生成する。
我々は,MPGNがビデオコーパスモーメントを明示的なアノテーションなしでローカライズすることに成功したことを示す。
論文 参考訳(メタデータ) (2022-10-23T05:05:18Z) - Audio Interval Retrieval using Convolutional Neural Networks [0.0]
本稿では,自然言語クエリに基づく音声イベント検索の可能性を検討することを目的とする。
特に、オーディオサンプルを自動的に分類するために、YamNet、AlexNet、ResNet-50の事前訓練モデルに焦点を当てます。
結果,ベンチマークモデルの性能は同等であり,YamNetは他の2モデルよりも若干優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:32:18Z) - EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery
Generation [10.799980374791316]
時間的接地は、自然言語クエリ入力に対応するビデオクリップの時間間隔を予測することを目的としている。
本稿では,既存のテキスト・ビデオ・グラウンドリングモデルとビデオ支援クエリ生成ネットワークを組み合わせた時間的グラウンドディングフレームワークであるEVOQUERを提案する。
論文 参考訳(メタデータ) (2021-09-10T00:30:36Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。