論文の概要: Context-Aware Pseudo-Label Scoring for Zero-Shot Video Summarization
- arxiv url: http://arxiv.org/abs/2510.17501v3
- Date: Wed, 22 Oct 2025 17:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.052884
- Title: Context-Aware Pseudo-Label Scoring for Zero-Shot Video Summarization
- Title(参考訳): ゼロショット映像要約のための文脈対応擬似ラベル符号化
- Authors: Yuanli Wu, Long Zhang, Yue Du, Bin Li,
- Abstract要約: 本稿では,ルーリック誘導型,擬似ラベル付き,即時駆動型ゼロショットビデオ要約フレームワークを提案する。
人間のアノテーションの小さなサブセットは、高信頼の擬似ラベルに変換される。
推論中、境界シーンはそれぞれの記述に基づいて独立してスコアされる。
- 参考スコア(独自算出の注目度): 6.057968525653529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a rubric-guided, pseudo-labeled, and prompt-driven zero-shot video summarization framework that bridges large language models with structured semantic reasoning. A small subset of human annotations is converted into high-confidence pseudo labels and organized into dataset-adaptive rubrics defining clear evaluation dimensions such as thematic relevance, action detail, and narrative progression. During inference, boundary scenes, including the opening and closing segments, are scored independently based on their own descriptions, while intermediate scenes incorporate concise summaries of adjacent segments to assess narrative continuity and redundancy. This design enables the language model to balance local salience with global coherence without any parameter tuning. Across three benchmarks, the proposed method achieves stable and competitive results, with F1 scores of 57.58 on SumMe, 63.05 on TVSum, and 53.79 on QFVS, surpassing zero-shot baselines by +0.85, +0.84, and +0.37, respectively. These outcomes demonstrate that rubric-guided pseudo labeling combined with contextual prompting effectively stabilizes LLM-based scoring and establishes a general, interpretable, and training-free paradigm for both generic and query-focused video summarization.
- Abstract(参考訳): 本稿では,大規模言語モデルに構造化意味論的推論を組み込む,ルーリック誘導型,擬似ラベル付き,即時駆動型ゼロショットビデオ要約フレームワークを提案する。
人間のアノテーションの小さなサブセットは、高信頼の擬似ラベルに変換され、セマンティック関連性、アクション詳細、物語の進行といった明確な評価次元を定義するデータセット適応ルーブリックに編成される。
推論中は、開封セグメントを含む境界シーンは、それぞれの記述に基づいて独立してスコアされ、中間シーンには、隣接するセグメントの簡潔な要約が組み込まれ、物語の連続性と冗長性を評価する。
この設計により、言語モデルはパラメータチューニングなしで局所的なサリエンスとグローバルなコヒーレンスとのバランスをとることができる。
提案手法は3つのベンチマークで安定かつ競争的な結果が得られ, SumMeでは57.58点, TVSumでは63.05点, QFVSでは53.79点, ゼロショットベースラインでは+0.85点, +0.84点, +0.37点をそれぞれ上回った。
これらの結果から,ルーブリック誘導擬似ラベリングと文脈的プロンプトが組み合わさってLLMに基づくスコアリングを効果的に安定化し,汎用的・問合せに焦点を絞ったビデオ要約のための汎用的・解釈的・訓練不要なパラダイムを確立した。
関連論文リスト
- GUM-SAGE: A Novel Dataset and Approach for Graded Entity Salience Prediction [12.172254885579706]
格付けされたエンティティサリエンス(英語版)は、テキストにおける相対的な重要性を反映したエンティティスコアを割り当てる。
両アプローチの強みを組み合わせた,格付けされたエンティティ・サリエンスのための新しいアプローチを提案する。
提案手法は,人間の要約やアライメントに基づくスコアとの相関が強く,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-15T01:26:14Z) - Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。
具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文 参考訳(メタデータ) (2025-03-22T05:04:12Z) - Semi-Supervised Dialogue Abstractive Summarization via High-Quality
Pseudolabel Selection [27.531083525683243]
半教師あり対話要約(SSDS)は、人ラベルデータへの依存を減らすためにモデル生成要約を利用する。
要約モデルの品質の3つの主次元をカプセル化した新しいスコアリング手法SiCFを提案する。
論文 参考訳(メタデータ) (2024-03-06T22:06:23Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - COLO: A Contrastive Learning based Re-ranking Framework for One-Stage
Summarization [84.70895015194188]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。
COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (2022-09-29T06:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。