論文の概要: Context-Aware Pseudo-Label Scoring for Zero-Shot Video Summarization
- arxiv url: http://arxiv.org/abs/2510.17501v2
- Date: Tue, 21 Oct 2025 17:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.051954
- Title: Context-Aware Pseudo-Label Scoring for Zero-Shot Video Summarization
- Title(参考訳): ゼロショット映像要約のための文脈対応擬似ラベル符号化
- Authors: Yuanli Wu, Long Zhang, Yue Du, Bin Li,
- Abstract要約: 本稿では,ルーリック誘導型擬似ラベルプロンプトフレームワークを提案する。
人間のアノテーションの小さなサブセットは、高信頼の擬似ラベルに変換される。
推論では、境界のシーンは彼ら自身の記述から記録される。
中間シーンには、進行と冗長性を評価するために、隣接するセグメントの短い要約が含まれます。
- 参考スコア(独自算出の注目度): 6.057968525653529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With video exploding across social media, surveillance, and education, compressing long footage into concise yet faithful surrogates is crucial. Supervised methods learn frame/shot importance from dense labels and excel in-domain, but are costly and brittle across datasets; unsupervised methods avoid labels but often miss high-level semantics and narrative cues. Recent zero-shot pipelines use LLMs for training-free summarization, yet remain sensitive to handcrafted prompts and dataset-specific normalization.We propose a rubric-guided, pseudo-labeled prompting framework. A small subset of human annotations is converted into high-confidence pseudo labels and aggregated into structured, dataset-adaptive scoring rubrics for interpretable scene evaluation. At inference, boundary scenes (first/last) are scored from their own descriptions, while intermediate scenes include brief summaries of adjacent segments to assess progression and redundancy, enabling the LLM to balance local salience with global coherence without parameter tuning.Across three benchmarks, our method is consistently effective. On SumMe and TVSum it achieves F1 of 57.58 and 63.05, surpassing a zero-shot baseline (56.73, 62.21) by +0.85 and +0.84 and approaching supervised performance. On the query-focused QFVS benchmark it attains 53.79 F1, beating 53.42 by +0.37 and remaining stable across validation videos. These results show that rubric-guided pseudo labeling, coupled with contextual prompting, stabilizes LLM-based scoring and yields a general, interpretable zero-shot paradigm for both generic and query-focused video summarization.
- Abstract(参考訳): ソーシャルメディア、監視、教育で動画が爆発する中、長い映像を簡潔で忠実なサロゲートに圧縮することが不可欠です。
監視対象のメソッドは、高密度なラベルからフレーム/ショットの重要性を学び、ドメイン内で最適化するが、データセット間で費用がかかり、不安定である。
最近のゼロショットパイプラインは、トレーニング不要の要約にLLMを使用するが、手作りのプロンプトやデータセット固有の正規化には敏感であり、ルーリック誘導の擬似ラベルプロンプトフレームワークを提案する。
人間のアノテーションの小さなサブセットを高信頼の擬似ラベルに変換し、解釈可能なシーン評価のために構造化されたデータセット適応型スコアリングルーブリックに集約する。
推定では境界シーン(第1/第1/第2)がそれぞれの記述から採点され,中間シーンには隣接セグメントの簡単な要約が含まれて進行と冗長性を評価し,LLMはパラメータチューニングを伴わずに局所塩分とグローバルコヒーレンスとのバランスをとることができる。
SumMeとTVSumでは57.58と63.05のF1を達成し、ゼロショットベースライン(56.73、62.21)を+0.85と+0.84で上回り、監督された性能に近づいている。
QFVSベンチマークでは53.79 F1に達し、53.42 x +0.37を上回り、検証ビデオ全体で安定している。
これらの結果から,ルーブリック誘導型擬似ラベリングと文脈的プロンプトが組み合わさってLCMに基づくスコアリングを安定化し,汎用的および問合せに焦点を絞ったビデオ要約のための汎用的・解釈可能なゼロショットパラダイムが得られた。
関連論文リスト
- GUM-SAGE: A Novel Dataset and Approach for Graded Entity Salience Prediction [12.172254885579706]
格付けされたエンティティサリエンス(英語版)は、テキストにおける相対的な重要性を反映したエンティティスコアを割り当てる。
両アプローチの強みを組み合わせた,格付けされたエンティティ・サリエンスのための新しいアプローチを提案する。
提案手法は,人間の要約やアライメントに基づくスコアとの相関が強く,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-15T01:26:14Z) - Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。
具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文 参考訳(メタデータ) (2025-03-22T05:04:12Z) - Semi-Supervised Dialogue Abstractive Summarization via High-Quality
Pseudolabel Selection [27.531083525683243]
半教師あり対話要約(SSDS)は、人ラベルデータへの依存を減らすためにモデル生成要約を利用する。
要約モデルの品質の3つの主次元をカプセル化した新しいスコアリング手法SiCFを提案する。
論文 参考訳(メタデータ) (2024-03-06T22:06:23Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - COLO: A Contrastive Learning based Re-ranking Framework for One-Stage
Summarization [84.70895015194188]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。
COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (2022-09-29T06:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。