論文の概要: Context Consistency Learning via Sentence Removal for Semi-Supervised Video Paragraph Grounding
- arxiv url: http://arxiv.org/abs/2506.18476v1
- Date: Mon, 23 Jun 2025 10:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.932802
- Title: Context Consistency Learning via Sentence Removal for Semi-Supervised Video Paragraph Grounding
- Title(参考訳): 半教師付きビデオパラグラフグラウンドにおける文除去によるコンテキスト一貫性学習
- Authors: Yaokun Zhong, Siyu Jiang, Jian Zhu, Jian-Fang Hu,
- Abstract要約: 半教師付き学習を強化するための新しいコンテキスト一貫性学習(CCL)フレームワークを提案する。
CCLは、半教師付き学習を強化するために、一貫性の正規化と擬似ラベルのパラダイムを統一する。
- 参考スコア(独自算出の注目度): 9.280423086981703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-Supervised Video Paragraph Grounding (SSVPG) aims to localize multiple sentences in a paragraph from an untrimmed video with limited temporal annotations. Existing methods focus on teacher-student consistency learning and video-level contrastive loss, but they overlook the importance of perturbing query contexts to generate strong supervisory signals. In this work, we propose a novel Context Consistency Learning (CCL) framework that unifies the paradigms of consistency regularization and pseudo-labeling to enhance semi-supervised learning. Specifically, we first conduct teacher-student learning where the student model takes as inputs strongly-augmented samples with sentences removed and is enforced to learn from the adequately strong supervisory signals from the teacher model. Afterward, we conduct model retraining based on the generated pseudo labels, where the mutual agreement between the original and augmented views' predictions is utilized as the label confidence. Extensive experiments show that CCL outperforms existing methods by a large margin.
- Abstract(参考訳): SSVPG(Semi-Supervised Video Paragraph Grounding)は、時間的アノテーションを限定した未編集ビデオから段落内の複数の文をローカライズすることを目的としている。
既存の手法は教師の一貫性学習とビデオレベルのコントラスト損失に重点を置いているが、強力な監視信号を生成するための問合せコンテキストの摂動の重要性を見落としている。
本研究では,整合性正規化と擬似ラベル化のパラダイムを統一し,半教師付き学習を強化する新しいコンテキスト一貫性学習(CCL)フレームワークを提案する。
具体的には、まず、学生モデルが文章を除去した強強化サンプルを入力として受け取り、教師モデルから十分な強度の監督信号から学習するよう強制される教師学生学習を行う。
その後、生成した擬似ラベルに基づいてモデル再訓練を行い、オリジナルと拡張されたビューの予測の相互一致をラベルの信頼度として利用する。
大規模な実験により、CCLは既存の手法よりも大きなマージンで優れていることが示された。
関連論文リスト
- Rethinking the Mean Teacher Strategy from the Perspective of Self-paced Learning [5.6818939992896365]
半監督的医用画像分割は手作業によるアノテーションのコスト削減の可能性から注目されている。
本研究では,教師データに対するMT戦略を,時間的ラグ型教師モデルと地上の真理ラベルとの出力合意によって制御されたセルフペースト学習の形式として再解釈する。
論文 参考訳(メタデータ) (2025-05-16T09:14:06Z) - Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。
具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文 参考訳(メタデータ) (2025-03-22T05:04:12Z) - Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Point Contrastive Prediction with Semantic Clustering for
Self-Supervised Learning on Point Cloud Videos [71.20376514273367]
本稿では,オブジェクト中心およびシーン中心のデータを対象とした一元的クラウドビデオ自己教師型学習フレームワークを提案する。
本手法は、広範囲の下流タスクにおいて教師付きタスクよりも優れる。
論文 参考訳(メタデータ) (2023-08-18T02:17:47Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。