論文の概要: Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2603.11439v1
- Date: Thu, 12 Mar 2026 02:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.811579
- Title: Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning
- Title(参考訳): レーンで待機する:Dense Video Captioningのためのオーバーラップ圧縮損失を持つロール特化クエリ
- Authors: Seung Hyup Baek, Jimin Lee, Hyeongkeun Lee, Jae Won Cho,
- Abstract要約: そこで本稿では,局所化とキャプションを独立したコンポーネントに分割するロール固有クエリを提案する。
次に、コントラストアライメントを用いて、対応する出力間のセマンティック一貫性を強制する。
そこで我々は,キャプションのセマンティックリッチネスをさらに高めるために,コアイベント概念をキャプチャする軽量モジュールを提案する。
- 参考スコア(独自算出の注目度): 7.633598328818363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense Video Captioning (DVC) is a challenging multimodal task that involves temporally localizing multiple events within a video and describing them with natural language. While query-based frameworks enable the simultaneous, end-to-end processing of localization and captioning, their reliance on shared queries often leads to significant multi-task interference between the two tasks, as well as temporal redundancy in localization. In this paper, we propose utilizing role-specific queries that separate localization and captioning into independent components, allowing each to exclusively learn its role. We then employ contrastive alignment to enforce semantic consistency between the corresponding outputs, ensuring coherent behavior across the separated queries. Furthermore, we design a novel suppression mechanism in which mutual temporal overlaps across queries are penalized to tackle temporal redundancy, supervising the model to learn distinct, non-overlapping event regions for more precise localization. Additionally, we introduce a lightweight module that captures core event concepts to further enhance semantic richness in captions through concept-level representations. We demonstrate the effectiveness of our method through extensive experiments on major DVC benchmarks YouCook2 and ActivityNet Captions.
- Abstract(参考訳): Dense Video Captioning(DVC)は、ビデオ内の複数のイベントを時間的にローカライズし、それらを自然言語で記述する、困難なマルチモーダルタスクである。
クエリベースのフレームワークは、ローカライゼーションとキャプションの同時、エンドツーエンドの処理を可能にするが、共有クエリへの依存は、ローカライゼーションにおける時間的冗長性だけでなく、2つのタスク間の大きなマルチタスク干渉につながることが多い。
本稿では,それぞれの役割を個別に学習することのできる,役割特化クエリを独立コンポーネントに分割する手法を提案する。
次に、コントラストアライメントを用いて、対応する出力間のセマンティック一貫性を強制し、分離されたクエリ間のコヒーレントな振る舞いを保証する。
さらに,クエリ間の相互の時間的重複をペナル化して時間的冗長に対処する機構を設計し,より正確なローカライズのために,異なる重複しないイベント領域を学習するためのモデルを監督する。
さらに,中核イベントの概念を捉える軽量モジュールを導入し,概念レベルの表現を通じてキャプションのセマンティックリッチネスをさらに強化する。
本稿では,主要なDVCベンチマークであるYouCook2とActivityNet Captionsの広範な実験を通じて,本手法の有効性を実証する。
関連論文リスト
- Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization [22.58434223222062]
そこで本研究では,Chain-of-Thought文による時間的局所化手法を提案する。
具体的には、テキスト意味情報を活用して、アクションの共通点やバリエーションを捉える能力を高める新しい数ショット学習フレームワークを設計する。
公開されているActivityNet1.3とTHUMOS14データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-04-18T04:35:35Z) - Disentangle and denoise: Tackling context misalignment for video moment retrieval [16.939535169282262]
Video Moment Retrievalは、自然言語クエリに従ってコンテキスト内のビデオモーメントを見つけることを目的としている。
本稿では,正確なモーダル・モーダル・コンテクスト・デノイング・ネットワーク(CDNet)を提案する。
論文 参考訳(メタデータ) (2024-08-14T15:00:27Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。
また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文 参考訳(メタデータ) (2021-10-31T07:13:34Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。