論文の概要: Follow the Saliency: Supervised Saliency for Retrieval-augmented Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2603.11460v1
- Date: Thu, 12 Mar 2026 02:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.823185
- Title: Follow the Saliency: Supervised Saliency for Retrieval-augmented Dense Video Captioning
- Title(参考訳): 塩分濃度を追従する:検索機能付き高解像度ビデオキャプションのための改善された塩分濃度
- Authors: Seung hee Choi, MinJu Jeon, Hyunwoo Oh, Jihwan Lee, Dong-Jin Kim,
- Abstract要約: 既存のDense Video Captioning(DVC)の検索強化アプローチは、真のイベント境界に沿った正確な時間分割を達成できないことが多い。
提案フレームワークであるbfSTaRCは、ハイライト検出モジュールを通じてフレームレベルのサリエンシを監視することによって、この制限を克服する。
我々はYouCook2とViTTベンチマークで総合的な評価を行い、STaRCはほとんどのメトリクスで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 7.051314153203061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing retrieval-augmented approaches for Dense Video Captioning (DVC) often fail to achieve accurate temporal segmentation aligned with true event boundaries, as they rely on heuristic strategies that overlook ground truth event boundaries. The proposed framework, \textbf{STaRC}, overcomes this limitation by supervising frame-level saliency through a highlight detection module. Note that the highlight detection module is trained on binary labels derived directly from DVC ground truth annotations without the need for additional annotation. We also propose to utilize the saliency scores as a unified temporal signal that drives retrieval via saliency-guided segmentation and informs caption generation through explicit Saliency Prompts injected into the decoder. By enforcing saliency-constrained segmentation, our method produces temporally coherent segments that align closely with actual event transitions, leading to more accurate retrieval and contextually grounded caption generation. We conduct comprehensive evaluations on the YouCook2 and ViTT benchmarks, where STaRC achieves state-of-the-art performance across most of the metrics. Our code is available at https://github.com/ermitaju1/STaRC
- Abstract(参考訳): 既存のDense Video Captioning(DVC)の検索強化アプローチは、真実のイベント境界を見下ろすヒューリスティック戦略に依存するため、真のイベント境界に沿った正確な時間的セグメンテーションを達成できないことが多い。
提案するフレームワークである‘textbf{STaRC} は、ハイライト検出モジュールを通じてフレームレベルのサリエンシを監視することによって、この制限を克服する。
ハイライト検出モジュールは、追加のアノテーションを必要とせずに、DVCの基底真理アノテーションから直接派生したバイナリラベルでトレーニングされていることに注意してください。
また、サリエンシスコアを、サリエンシ誘導セグメンテーションによる検索を駆動する統合時間信号として利用し、デコーダに注入された明示的なサリエンシプロンプトを通じてキャプション生成を通知する。
本手法は,サリエンシに制約されたセグメンテーションを強制することにより,時間的コヒーレントなセグメンテーションを生成し,実際のイベント遷移と密接に一致させることで,より正確な検索と文脈的グラウンドドキャプション生成を実現する。
我々はYouCook2とViTTベンチマークで総合的な評価を行い、STaRCはほとんどのメトリクスで最先端のパフォーマンスを達成する。
私たちのコードはhttps://github.com/ermitaju1/STaRCで利用可能です。
関連論文リスト
- Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing [26.317163478761916]
弱教師付き音声視覚ビデオ解析は、時間的アノテーションを使わずに、可聴性、可視性、および音声視覚イベントを検出する。
本稿では,信頼度の高いセグメントレベルのマスクを生成する指数移動平均(EMA)誘導擬似監視フレームワークを提案する。
また,クラス対応のクロスモーダル・アグリーメント(CMA)の損失も提案する。
論文 参考訳(メタデータ) (2025-09-17T15:38:05Z) - TAG: A Simple Yet Effective Temporal-Aware Approach for Zero-Shot Video Temporal Grounding [12.57589714067771]
Video Temporal Groundingは、与えられた自然言語クエリに基づいて、関連するビデオセグメントを抽出することを目的としている。
従来のアプローチでは、同じ意味論を共有する時間的に連続したフレームが複数のセグメントに分割されるセマンティックな断片化に悩まされていた。
本稿では、時間プーリング、時間的コヒーレンスクラスタリング、類似度調整を取り入れた、ゼロショットビデオ時間的グラウンディングのための、シンプルで効果的な時間的認識アプローチを提案する。
論文 参考訳(メタデータ) (2025-08-11T12:38:46Z) - Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - Boosting Weakly-Supervised Temporal Action Localization with Text
Information [94.48602948837664]
本稿では,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案する。
また,VLC (Video-text Language Completion) という生成目的も導入した。
また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
論文 参考訳(メタデータ) (2023-05-01T00:07:09Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。