論文の概要: Not All Inputs Are Valid: Towards Open-Set Video Moment Retrieval Using Language
- arxiv url: http://arxiv.org/abs/2605.29812v1
- Date: Thu, 28 May 2026 11:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.215935
- Title: Not All Inputs Are Valid: Towards Open-Set Video Moment Retrieval Using Language
- Title(参考訳): すべての入力が有効な訳ではない - 言語を用いたオープンセットビデオモーメント検索に向けて
- Authors: Xiang Fang, Wanlong Fang, Daizong Liu, Xiaoye Qu, Jianfeng Dong, Pan Zhou, Renfu Li, Zichuan Xu, Lixing Chen, Panpan Zheng, Yu Cheng,
- Abstract要約: Video Moment Retrieval (VMR) は、未トリミングビデオから文クエリに対応する特定のモーメントを検索するターゲットである。
この目的のために、我々は、新しいVMR設定であるOpen-Set Video Moment Retrieval (OS-VMR)を創造的に探求する。
本稿では,OS-VMRに向けた最初の試みとして,正規化フロー技術に基づくIDおよびOODクエリを識別する新しいモデルであるtextOpenVMRを提案する。
- 参考スコア(独自算出の注目度): 82.18047702848021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Moment Retrieval (VMR) targets to retrieve the specific moment corresponding to a sentence query from an untrimmed video. Although recent works have made remarkable progress in this task, they implicitly are rooted in the closed-set assumption that all the given queries as video-relevant\footnote{In this paper, we treat ``video-relevant query'' as ``in-distribution (ID) query'' and ``video-irrelevant query'' as ``out-of-distribution (OOD) query''.}. Given an OOD query in open-set scenarios, they still utilize it for wrong retrieval, which might lead to irrecoverable losses in high-risk scenarios, \textit{e.g.}, criminal activity detection. To this end, we creatively explore a brand-new VMR setting termed Open-Set Video Moment Retrieval (OS-VMR), where we should not only retrieve the precise moments based on ID query, but also reject OOD queries. In this paper, we make the first attempt to step toward OS-VMR and propose a novel model \textbf{OpenVMR}, which first distinguishes ID and OOD queries based on the normalizing flow technology, and then conducts moment retrieval based on ID queries. Specifically, we first learn the ID distribution by constructing a normalizing flow, and assume the ID query distribution obeys the multi-variate Gaussian distribution. Then, we introduce an uncertainty score to search the ID-OOD separating boundary. After that, we refine the ID-OOD boundary by pulling together ID query features. Besides, video-query matching and frame-query matching are designed for coarse-grained and fine-grained cross-modal interaction, respectively. Finally, a positive-unlabeled learning module is introduced for moment retrieval. Experimental results on three VMR datasets show the effectiveness of our OpenVMR.
- Abstract(参考訳): Video Moment Retrieval (VMR) は、未トリミングビデオから文クエリに対応する特定のモーメントを検索するターゲットである。
最近の研究は、このタスクにおいて顕著な進歩を遂げているが、それらが暗黙的に、与えられた全てのクエリをビデオ関連\footnote{ここでは、'video-relevant query'を'in-distribution (ID) query'、'`video-irrelevant query'を'out-of-distriion (OOD) query'として扱うという、クローズドセットの仮定に根ざしている。
と。
オープンセットのシナリオでOODクエリが使用されると、誤った検索に使用するため、リスクの高いシナリオである‘textit{e g }, 犯罪行為検出において、予期せぬ損失が発生する可能性がある。
この目的のために、我々は、新しいVMR設定であるOpen-Set Video Moment Retrieval (OS-VMR)を創造的に探求する。
本稿では,OS-VMRに向けた最初の試みとして,まず正規化フロー技術に基づくIDクエリとOODクエリを識別し,次にIDクエリに基づいてモーメント検索を行う新しいモデルを提案する。
具体的には、まず正規化フローを構築してID分布を学習し、IDクエリ分布が多変量ガウス分布に従うと仮定する。
そして,ID-OOD分離境界を探索する不確実性スコアを導入する。
その後、IDクエリ機能をまとめてID-OOD境界を洗練します。
さらに,ビデオクエリマッチングとフレームクエリマッチングは,それぞれ粗粒度と細粒度との相互通信のために設計されている。
最後に、モーメント検索のための正の未ラベル学習モジュールを導入する。
3つのVMRデータセットの実験結果は、OpenVMRの有効性を示している。
関連論文リスト
- Fewer Steps, Better Performance: Efficient Cross-Modal Clip Trimming for Video Moment Retrieval Using Language [60.91064560080974]
本稿では,クエリ関連クリップをトリムするスポットVMRを提案する。
提案するSpotVMRは,最新のVMR手法の効率性を実現するプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2026-05-28T11:42:28Z) - Beyond Caption-Based Queries for Video Moment Retrieval [60.31221310786333]
キャプションベースのクエリでトレーニングしたVMR手法の劣化について検討するが,検索クエリで評価した。
3つのパブリックVMRデータセットでテキストクエリを変更することで、3つのベンチマークを導入する。
提案手法は,検索クエリの性能を最大14.82% mAP_m,マルチモーメント検索クエリ最大21.83% mAP_mで改善する。
論文 参考訳(メタデータ) (2026-03-02T20:06:41Z) - WeDetect: Fast Open-Vocabulary Object Detection as Retrieval [74.39703419628829]
Open-vocabularyオブジェクト検出は、テキストプロンプトを通じて任意のクラスを検出することを目的としている。
クロスモーダル融合層(ノンフュージョン)を持たない手法は、認識を検索問題として扱うことにより、より高速な推論を提供する。
WeDetectという名前のモデルファミリを開発し、推論効率の高い15ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-13T12:40:28Z) - Action tube generation by person query matching for spatio-temporal action detection [0.0]
方法は、IoUベースのリンクやクリップ分割のような後処理ステップに頼ることなく、オリジナルビデオからアクションチューブを生成する。
提案手法では,各フレームに問合せに基づく検出(DETR)を適用し,同一人物をフレーム間でリンクするDETRクエリとマッチングする。
アクションクラスはQMMマッチングから得られたクエリのシーケンスを用いて予測され、単一のクリップよりも長いビデオから可変長の入力が可能になる。
論文 参考訳(メタデータ) (2025-03-17T09:26:06Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval [20.493241098064665]
ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。
モーダル固有のPseudo Query Generation Network (MPGN) を提案する。
MPGNは、選択した時間モーメントから視覚情報とテキスト情報の両方を活用する疑似クエリを生成する。
我々は,MPGNがビデオコーパスモーメントを明示的なアノテーションなしでローカライズすることに成功したことを示す。
論文 参考訳(メタデータ) (2022-10-23T05:05:18Z) - Temporal Query Networks for Fine-grained Video Understanding [88.9877174286279]
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
論文 参考訳(メタデータ) (2021-04-19T17:58:48Z) - VLANet: Video-Language Alignment Network for Weakly-Supervised Video
Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。
本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。
実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-24T07:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。