論文の概要: Context-Aware Pseudo-Label Scoring for Zero-Shot Video Summarization
- arxiv url: http://arxiv.org/abs/2510.17501v1
- Date: Mon, 20 Oct 2025 12:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.454815
- Title: Context-Aware Pseudo-Label Scoring for Zero-Shot Video Summarization
- Title(参考訳): ゼロショット映像要約のための文脈対応擬似ラベル符号化
- Authors: Yuanli Wu, Long Zhang, Yue Du, Bin Li,
- Abstract要約: 本稿では,基本構文アノテーションの少数のサブセットを高信頼の擬似ラベルに変換する,ルーリックガイド付き擬似ラベルプロンプトフレームワークを提案する。
SumMe と TVSum では,textbf57.58 と textbf63.05 の F1 スコアを達成し,教師なしおよび前回のゼロショットベースラインを超えている。
- 参考スコア(独自算出の注目度): 6.057968525653529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid proliferation of video content across social media, surveillance, and education platforms, efficiently summarizing long videos into concise yet semantically faithful surrogates has become increasingly vital. Existing supervised methods achieve strong in-domain accuracy by learning from dense annotations but suffer from high labeling costs and limited cross-dataset generalization, while unsupervised approaches, though label-free, often fail to capture high-level human semantics and fine-grained narrative cues. More recently, zero-shot prompting pipelines have leveraged large language models (LLMs) for training-free video summarization, yet remain highly sensitive to handcrafted prompt templates and dataset-specific score normalization. To overcome these limitations, we introduce a rubric-guided, pseudo-labeled prompting framework that transforms a small subset of ground-truth annotations into high-confidence pseudo labels, which are aggregated into structured, dataset-adaptive scoring rubrics guiding interpretable scene evaluation. During inference, first and last segments are scored based solely on their descriptions, whereas intermediate ones incorporate brief contextual summaries of adjacent scenes to assess narrative progression and redundancy. This contextual prompting enables the LLM to balance local salience and global coherence without parameter tuning. On SumMe and TVSum, our method achieves F1 scores of \textbf{57.58} and \textbf{63.05}, surpassing unsupervised and prior zero-shot baselines while approaching supervised performance. The results demonstrate that rubric-guided pseudo labeling effectively stabilizes LLM-based scoring and establishes a general, interpretable zero-shot paradigm for video summarization.
- Abstract(参考訳): ソーシャルメディア、監視、教育プラットフォームでビデオコンテンツが急速に普及するにつれ、長い動画を簡潔でセマンティックに忠実なサロゲートに効率的に要約することがますます重要になっている。
既存の教師あり手法は、密接なアノテーションから学習することでドメイン内精度が向上するが、高いラベル付けコストと限られたデータセットの一般化に悩まされる。
最近では、ゼロショットプロンプトパイプラインは、トレーニングなしの動画要約に大規模な言語モデル(LLM)を活用しているが、手作りのプロンプトテンプレートやデータセット固有のスコア正規化に非常に敏感である。
これらの制約を克服するため,我々は,接頭辞の小さなサブセットを高信頼な擬似ラベルに変換し,解釈可能なシーン評価を導くような,構造化されたデータセット適応型スコアリングルーブリックに集約する,ルーブリック誘導型擬似ラベルプロンプトフレームワークを導入する。
推測中、第1節と第2節は、その記述のみに基づいてスコアされ、中間節は、隣接するシーンの短い文脈的な要約を取り入れて、物語の進行と冗長性を評価する。
この文脈的プロンプトにより、LLMはパラメータチューニングなしで局所的なサリエンスとグローバルなコヒーレンスをバランスさせることができる。
SumMe と TVSum では,教師なしおよび前回のゼロショットベースラインを越えながら,教師なし性能に近づきながら,F1 スコアの \textbf{57.58} と \textbf{63.05} を達成している。
その結果、ルーブリック誘導擬似ラベリングはLLMに基づくスコアリングを効果的に安定化させ、ビデオ要約のための一般的な解釈可能なゼロショットパラダイムを確立した。
関連論文リスト
- GUM-SAGE: A Novel Dataset and Approach for Graded Entity Salience Prediction [12.172254885579706]
格付けされたエンティティサリエンス(英語版)は、テキストにおける相対的な重要性を反映したエンティティスコアを割り当てる。
両アプローチの強みを組み合わせた,格付けされたエンティティ・サリエンスのための新しいアプローチを提案する。
提案手法は,人間の要約やアライメントに基づくスコアとの相関が強く,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-15T01:26:14Z) - Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。
具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文 参考訳(メタデータ) (2025-03-22T05:04:12Z) - Semi-Supervised Dialogue Abstractive Summarization via High-Quality
Pseudolabel Selection [27.531083525683243]
半教師あり対話要約(SSDS)は、人ラベルデータへの依存を減らすためにモデル生成要約を利用する。
要約モデルの品質の3つの主次元をカプセル化した新しいスコアリング手法SiCFを提案する。
論文 参考訳(メタデータ) (2024-03-06T22:06:23Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - COLO: A Contrastive Learning based Re-ranking Framework for One-Stage
Summarization [84.70895015194188]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。
COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (2022-09-29T06:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。