論文の概要: Saliency-Guided DETR for Moment Retrieval and Highlight Detection
- arxiv url: http://arxiv.org/abs/2410.01615v1
- Date: Wed, 2 Oct 2024 14:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:34:50.690460
- Title: Saliency-Guided DETR for Moment Retrieval and Highlight Detection
- Title(参考訳): モーメント検索と光検出のためのサリエンシ誘導型DETR
- Authors: Aleksandr Gordeev, Vladimir Dokholyan, Irina Tolstykh, Maksim Kuprashevich,
- Abstract要約: 既存のビデオモーメント検索とハイライト検出のアプローチでは、テキストとビデオの機能を効率的に調整することはできない。
このようなアライメントのために設計された最近の基礎的ビデオモデルを利用する新しいアーキテクチャを提案する。
さらに改良するために,大規模かつ高品質なプレトレーニングデータセットであるInterVid-MRを開発した。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing approaches for video moment retrieval and highlight detection are not able to align text and video features efficiently, resulting in unsatisfying performance and limited production usage. To address this, we propose a novel architecture that utilizes recent foundational video models designed for such alignment. Combined with the introduced Saliency-Guided Cross Attention mechanism and a hybrid DETR architecture, our approach significantly enhances performance in both moment retrieval and highlight detection tasks. For even better improvement, we developed InterVid-MR, a large-scale and high-quality dataset for pretraining. Using it, our architecture achieves state-of-the-art results on the QVHighlights, Charades-STA and TACoS benchmarks. The proposed approach provides an efficient and scalable solution for both zero-shot and fine-tuning scenarios in video-language tasks.
- Abstract(参考訳): 既存のビデオモーメント検索とハイライト検出のアプローチでは、テキストとビデオの特徴を効率よく整列できないため、パフォーマンスが不満足になり、生産利用が制限される。
そこで本研究では,このようなアライメント用に設計された最近の基礎的ビデオモデルを利用した新しいアーキテクチャを提案する。
提案手法とハイブリッドDETRアーキテクチャを組み合わせることで,モーメント検索とハイライト検出の両タスクの性能を大幅に向上させる。
さらに改良するために,大規模かつ高品質なプレトレーニングデータセットであるInterVid-MRを開発した。
この手法を用いることで、QVHighlights、Charades-STA、TACoSベンチマークの最先端結果が得られる。
提案手法は,ビデオ言語タスクにおけるゼロショットシナリオと微調整シナリオの両方に対して,効率的かつスケーラブルなソリューションを提供する。
関連論文リスト
- Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - VS-Net: Multiscale Spatiotemporal Features for Lightweight Video Salient
Document Detection [0.2578242050187029]
拡張深度分割可能な畳み込みと近似ランクプーリングの助けを借りて,マルチスケールの時間情報をキャプチャするVS-Netを提案する。
本モデルでは,背景と前景の両方を考慮したサリエンシマップを作成した。
MIDV-500データセットで規制された膨大な実験は、VS-Netモデルが時間と堅牢性の両方で最先端のアプローチより優れていることを示している。
論文 参考訳(メタデータ) (2023-01-11T13:07:31Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文 参考訳(メタデータ) (2021-08-18T12:46:28Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。