Fugu-MT 論文翻訳(概要): Fewer Steps, Better Performance: Efficient Cross-Modal Clip Trimming for Video Moment Retrieval Using Language

論文の概要: Fewer Steps, Better Performance: Efficient Cross-Modal Clip Trimming for Video Moment Retrieval Using Language

arxiv url: http://arxiv.org/abs/2605.29793v1
Date: Thu, 28 May 2026 11:42:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:56.206878
Title: Fewer Steps, Better Performance: Efficient Cross-Modal Clip Trimming for Video Moment Retrieval Using Language
Title（参考訳）: 低ステップ, 性能向上: 言語を用いたビデオモーメント検索のための効率的なクロスモーダル・クリップ・トリミング
Authors: Xiang Fang, Daizong Liu, Wanlong Fang, Pan Zhou, Zichuan Xu, Wenzheng Xu, Junyang Chen, Renfu Li,
Abstract要約: 本稿では,クエリ関連クリップをトリムするスポットVMRを提案する。提案するSpotVMRは,最新のVMR手法の効率性を実現するプラグイン・アンド・プレイモジュールとして機能する。
参考スコア（独自算出の注目度）: 60.91064560080974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given an untrimmed video and a sentence query, video moment retrieval using language (VMR) aims to locate a target query-relevant moment. Since the untrimmed video is overlong, almost all existing VMR methods first sparsely down-sample each untrimmed video into multiple fixed-length video clips and then conduct multi-modal interactions with the query feature and expensive clip features for reasoning, which is infeasible for long real-world videos that span hours. Since the video is downsampled into fixed-length clips, some query-related frames may be filtered out, which will blur the specific boundary of the target moment, take the adjacent irrelevant frames as new boundaries, easily leading to cross-modal misalignment and introducing both boundary-bias and reasoning-bias. To this end, in this paper, we propose an efficient approach, SpotVMR, to trim the query-relevant clip. Besides, our proposed SpotVMR can serve as plug-and-play module, which achieves efficiency for state-of-the-art VMR methods while maintaining good retrieval performance. Especially, we first design a novel clip search model that learns to identify promising video regions to search conditioned on the language query. Then, we introduce a set of low-cost semantic indexing features to capture the context of objects and interactions that suggest where to search the query-relevant moment. Also, the distillation loss is utilized to address the optimization issues arising from end-to-end joint training of the clip selector and VMR model. Extensive experiments on three challenging datasets demonstrate its effectiveness.
Abstract（参考訳）: 未知のビデオと文クエリが与えられた場合、言語(VMR)を用いたビデオモーメント検索は、ターゲットのクエリ関連モーメントを見つけることを目的としている。未トリミングされたビデオは長すぎるので、既存のVMRメソッドはまず、各未トリミングされたビデオを複数の固定長のビデオクリップにわずかにダウンサンプリングし、クエリ機能と高価なビデオ機能とのマルチモーダルなインタラクションを実行する。ビデオは固定長のクリップにダウンサンプリングされるため、いくつかのクエリ関連フレームをフィルタリングして、ターゲットモーメントの特定の境界を曖昧にし、隣接する無関係なフレームを新しいバウンダリとして捉え、容易にモダル間のミスアライメントをもたらし、バウンダリバイアスと推論バイアスの両方を導入することができる。そこで本稿では,クエリ関連クリップをトリムするスポットVMRを提案する。また,提案するSpotVMRは,検索性能を向上しつつ,最先端VMR手法の効率性を実現するプラグイン・アンド・プレイモジュールとして機能する。特に,我々はまず,言語クエリで条件付き検索を行うために,将来性のあるビデオ領域を特定することを学習する新しいクリップ検索モデルを設計する。次に,クエリ関連モーメントを検索する場所を示唆するオブジェクトとインタラクションのコンテキストをキャプチャする,低コストなセマンティックインデックス機能を提案する。また、この蒸留損失を利用して、クリップセレクタとVMRモデルのエンドツーエンド共同トレーニングから生じる最適化問題に対処する。 3つの挑戦的なデータセットに関する大規模な実験は、その有効性を示している。

関連論文リスト

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding [40.699624658181456]
VideoDetectiveは、長いビデオ質問応答において効果的な手がかり探しのために、クエリ・ツー・セグメンテーションの関連性とセグメンション間の親和性を統合するフレームワークである。提案手法は,ビデオMME-longで最大7.5%の精度向上を実現し,MLLMの多種多様な性能向上を実現している。
論文参考訳（メタデータ） (2026-03-23T17:59:51Z)
Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering [36.94781787191615]
能動モーメント探索(AMDNet)を用いた簡易かつ効果的な手法を提案する。私たちは、彼らのクエリとセマンティックに一致したビデオモーメントを見つけることを約束しています。 2つの大規模なビデオデータセットの実験は、AMDNetの優位性と効率性を示している。
論文参考訳（メタデータ） (2025-04-15T07:00:18Z)
A Flexible and Scalable Framework for Video Moment Search [51.47907684209207]
本稿では,テキストクエリにマッチする任意の長さの動画のコレクションからランク付けされたモーメントのリストを取得するためのフレキシブルなフレームワークを提案する。 SPR(Segment-Proposal-Ranking)と呼ばれる我々のフレームワークは,探索プロセスを,セグメント検索,提案生成,モーメント改善という3つの独立した段階に単純化する。 TVR-Rankingデータセットの評価から,我々のフレームワークは,計算コストと処理時間を大幅に削減して最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2025-01-09T08:54:19Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。 Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文参考訳（メタデータ） (2023-07-24T06:22:37Z)
Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。 6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文参考訳（メタデータ） (2021-02-11T18:50:16Z)
A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2020-11-18T02:42:36Z)
Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文参考訳（メタデータ） (2020-09-22T10:25:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。