論文の概要: PR-DETR: Injecting Position and Relation Prior for Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2506.16082v1
- Date: Thu, 19 Jun 2025 07:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.97438
- Title: PR-DETR: Injecting Position and Relation Prior for Dense Video Captioning
- Title(参考訳): PR-DETR:Dense Video Captioning に先立って位置と関係を注入する
- Authors: Yizhe Li, Sanping Zhou, Zheng Qin, Le Wang,
- Abstract要約: 本稿では,検出トランスに先立って位置と関係を注入する,PR-DETRという新しい高密度ビデオキャプションフレームワークを提案する。
一方,我々はまず位置対応クエリを生成し,シーン固有の位置と潜在的な事象のセマンティック情報を提供する。
一方、イベント間相互作用を導く前に、イベント境界間の関係を明示的に計算し、キャプションのセマンティックコヒーレンスを改善するイベント関係エンコーダを設計する。
- 参考スコア(独自算出の注目度): 23.4119982709261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense video captioning is a challenging task that aims to localize and caption multiple events in an untrimmed video. Recent studies mainly follow the transformer-based architecture to jointly perform the two sub-tasks, i.e., event localization and caption generation, in an end-to-end manner. Based on the general philosophy of detection transformer, these methods implicitly learn the event locations and event semantics, which requires a large amount of training data and limits the model's performance in practice. In this paper, we propose a novel dense video captioning framework, named PR-DETR, which injects the explicit position and relation prior into the detection transformer to improve the localization accuracy and caption quality, simultaneously. On the one hand, we first generate a set of position-anchored queries to provide the scene-specific position and semantic information about potential events as position prior, which serves as the initial event search regions to eliminate the implausible event proposals. On the other hand, we further design an event relation encoder to explicitly calculate the relationship between event boundaries as relation prior to guide the event interaction to improve the semantic coherence of the captions. Extensive ablation studies are conducted to verify the effectiveness of the position and relation prior. Experimental results also show the competitive performance of our method on ActivityNet Captions and YouCook2 datasets.
- Abstract(参考訳): デンスビデオキャプションは、トリミングされていないビデオ内の複数のイベントをローカライズし、キャプションすることを目的とした、困難なタスクである。
近年の研究では,2つのサブタスク,すなわちイベントローカライゼーションとキャプション生成をエンドツーエンドで共同で行うためのトランスフォーマーベースのアーキテクチャを主に採用している。
検出トランスフォーマーの一般的な哲学に基づいて、これらの手法は暗黙的にイベントの位置とイベントセマンティクスを学習し、大量のトレーニングデータを必要とし、実際のモデルの性能を制限する。
本稿では,検出トランスに先立って明示的な位置と関係を注入し,局所化精度とキャプション品質を同時に向上させる,PR-DETRという新しい高密度ビデオキャプションフレームワークを提案する。
一方,我々はまず,想定される事象を先行する位置として,シーン固有の位置と意味情報を提供するために,一組の位置情報クエリを生成した。
一方、イベント間相互作用を導く前に、イベント境界間の関係を明示的に計算し、キャプションのセマンティックコヒーレンスを改善するイベント関係エンコーダを設計する。
広範囲にわたるアブレーション実験を行い, 位置と関係性の有効性を検証した。
実験の結果,ActivityNet CaptionsとYouCook2データセットの競合性能も示された。
関連論文リスト
- Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。
我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文 参考訳(メタデータ) (2021-09-13T20:50:37Z) - PcmNet: Position-Sensitive Context Modeling Network for Temporal Action
Localization [11.685362686431446]
本論文では,位置情報と意味情報の両方を組み込んだ時間的位置感応型コンテキストモデリング手法を提案する。
THUMOS-14とActivityNet-1.3の2つの挑戦的なデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-09T07:34:01Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。