Fugu-MT 論文翻訳(概要): SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

論文の概要: SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

arxiv url: http://arxiv.org/abs/2603.05437v2
Date: Mon, 09 Mar 2026 11:43:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:12.486783
Title: SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning
Title（参考訳）: SAIL: 微弱に監督されたDense Video Captioningのための類似性意識誘導とインターキャプションに基づく学習
Authors: Ye-Chan Kim, SeungJu Cha, Si-Woo Kim, Minju Jeon, Hyungee Kim, Dong-Jin Kim,
Abstract要約: Weakly-Supervised Video Captioningは、時間境界のないキャプションアノテーションだけで訓練されたビデオ内のイベントをローカライズし、記述することを目的としている。横断的なアライメントによって意味的に認識されたマスクを構成するSAILを提案する。類似性を認識したトレーニング対象は,イベントキャプションと高い類似性を持つ映像領域を強調するためにマスクをガイドする。
参考スコア（独自算出の注目度）: 8.976074934042071
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Weakly-Supervised Dense Video Captioning aims to localize and describe events in videos trained only on caption annotations, without temporal boundaries. Prior work introduced an implicit supervision paradigm based on Gaussian masking and complementary captioning. However, existing method focuses merely on generating non-overlapping masks without considering their semantic relationship to corresponding events, resulting in simplistic, uniformly distributed masks that fail to capture semantically meaningful regions. Moreover, relying solely on ground-truth captions leads to sub-optimal performance due to the inherent sparsity of existing datasets. In this work, we propose SAIL, which constructs semantically-aware masks through cross-modal alignment. Our similarity aware training objective guides masks to emphasize video regions with high similarity to their corresponding event captions. Furthermore, to guide more accurate mask generation under sparse annotation settings, we introduce an LLM-based augmentation strategy that generates synthetic captions to provide additional alignment signals. These synthetic captions are incorporated through an inter-mask mechanism, providing auxiliary guidance for precise temporal localization without degrading the main objective. Experiments on ActivityNet Captions and YouCook2 demonstrate state-of-the-art performance on both captioning and localization metrics.
Abstract（参考訳）: Weakly-Supervised Dense Video Captioningは、時間境界なしに、キャプションアノテーションのみに基づいてトレーニングされたビデオ内のイベントをローカライズし、記述することを目的としている。以前の研究は、ガウスのマスキングと補完的なキャプションに基づく暗黙の監督パラダイムを導入していた。しかし、既存の手法では、意味的に意味のある領域を捉えるのに失敗した、単純で一様に分散されたマスクを、対応する事象と意味的関係を考慮せずに、単に重複しないマスクを生成することにのみ焦点をあてている。さらに、接地構文のキャプションにのみ依存すると、既存のデータセットが本質的に分散しているため、最適なサブ最適性能がもたらされる。本研究では,モーダルアライメントによる意味認識マスクを構成するSAILを提案する。類似性を認識したトレーニング対象は,イベントキャプションと高い類似性を持つ映像領域を強調するためにマスクをガイドする。さらに,スパースアノテーション設定下でより正確なマスク生成を導くために,合成キャプションを生成するLLMベースの拡張戦略を導入し,アライメント信号を追加する。これらの合成キャプションは、マスク間機構を介して組み込まれ、主目的を劣化させることなく、正確な時間的局所化のための補助的ガイダンスを提供する。 ActivityNet CaptionsとYouCook2の実験は、キャプションとローカライゼーションの両方で最先端のパフォーマンスを示している。

関連論文リスト

SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning [53.638998508418545]
本稿では,画像の協調とキャプション'(セグキャプション)を新たに導入する。 SegCaptioningは、オブジェクトを囲むバウンディングボックスのような直接的なプロンプトを、(カプセル、マスク)ペアで表されるさまざまな意味解釈に変換することを目的としている。このタスクは、ユーザの意図を最小限のプロンプトから正確に把握し、同時に複数の意味的に整列したキャプションワードとマスクを予測するなど、大きな課題を生じさせる。
論文参考訳（メタデータ） (2025-12-01T18:33:04Z)
DynaStride: Dynamic Stride Windowing with MMCoT for Instructional Multi-Scene Captioning [3.47287766500271]
インストラクショナルビデオにおけるシーンレベルのキャプションは、視覚的手がかりと時間的構造の両方を理解することで学習を強化することができる。手動シーンセグメンテーションを必要とせずに、コヒーレントなシーンレベルのキャプションを生成するパイプラインDynaStrideを導入する。我々はDynaStrideが時間的コヒーレントで情報的なキャプションを生成することを示し、AIによる指導コンテンツ生成を改善するための有望な方向性を示唆している。
論文参考訳（メタデータ） (2025-10-27T22:29:08Z)
Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。 MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文参考訳（メタデータ） (2025-09-22T17:59:54Z)
Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文参考訳（メタデータ） (2025-01-03T18:09:26Z)
Implicit Location-Caption Alignment via Complementary Masking for Weakly-Supervised Dense Video Captioning [12.066823214932345]
Weakly-Supervised Dense Video Captioningは、イベント境界のアノテーションを必要とせずに、ビデオ内のすべてのイベントをローカライズし、記述することを目的としている。既存の方法は、イベントの位置とキャプションの間の明示的なアライメントの制約に依存している。補似マスキングによる新しい暗黙的位置キャプチャアライメントパラダイムを提案する。
論文参考訳（メタデータ） (2024-12-17T10:52:50Z)
Text-Guided Video Masked Autoencoder [12.321239366215426]
本稿では,ペア字幕に高い対応で映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習により、純粋なMAEと比較して下流性能が向上することを示す。
論文参考訳（メタデータ） (2024-08-01T17:58:19Z)
Mask to reconstruct: Cooperative Semantics Completion for Video-text Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-05-13T12:31:37Z)
Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文参考訳（メタデータ） (2023-01-15T02:04:02Z)
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。 MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文参考訳（メタデータ） (2022-08-25T17:59:58Z)
Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文参考訳（メタデータ） (2021-11-24T18:50:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。