論文の概要: Uncertainty-Aware and Decoder-Aligned Learning for Video Summarization
- arxiv url: http://arxiv.org/abs/2605.09507v1
- Date: Sun, 10 May 2026 12:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.286223
- Title: Uncertainty-Aware and Decoder-Aligned Learning for Video Summarization
- Title(参考訳): ビデオ要約のための不確かさ認識とデコーダ対応学習
- Authors: Omer Tariq, Syed Muhammad Raza, Jeongbae Son,
- Abstract要約: ビデオ要約の目的は、時間的に重要なセグメントのサブセットを選択することで、長いビデオのコンパクトな表現を作ることである。
この課題は、強い注釈主観性と離散復号法に依存するため本質的に困難である。
本稿では,ビデオ要約のための不確実性とデコーダ対応の学習フレームワークであるVASTSumを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video summarization aims to produce a compact representation of a long video by selecting a subset of temporally important segments that best reflect human preferences. This task is inherently difficult due to strong annotation subjectivity and the reliance on discrete decoding procedures, such as temporal segmentation and knapsack-based selection, during evaluation. Most existing approaches either learn deterministic importance scores that overlook these characteristics or adopt complex generative models that increase training and inference cost. In this paper, we propose VASTSum, an uncertainty-aware and decoder-aligned learning framework for video summarization that addresses both challenges within a single-pass model. The proposed method predicts probabilistic frame-level importance scores using a variational formulation, enabling explicit modeling of uncertainty arising from multi-annotator supervision. To account for subjectivity, particularly under binary annotations, we employ a supervision strategy that encourages alignment with plausible human annotation modes rather than enforcing a single consensus target. Furthermore, we introduce a decoder-aligned regularization that promotes stability of knapsack-based summary selection, reducing sensitivity to small perturbations in predicted scores. We evaluate the proposed framework on the SumMe and TVSum benchmarks using standard rank-based metrics. Experimental results show consistent and competitive Kendall and Spearman correlations across multiple data splits, demonstrating improved robustness under annotation disagreement while maintaining efficient single-forward inference. These results indicate that explicitly modeling uncertainty and aligning learning objectives with the decoding stage provide a principled alternative to both deterministic and diffusion-based video summarization methods.
- Abstract(参考訳): ビデオ要約は、人間の好みを最も反映した時間的に重要なセグメントのサブセットを選択することで、長いビデオのコンパクトな表現を作ることを目的としている。
このタスクは、強いアノテーションの主観性と、評価中に時間分割やクナップサックに基づく選択のような離散的な復号処理に依存するため、本質的に困難である。
既存のアプローチのほとんどは、これらの特徴を無視する決定論的重要性のスコアを学ぶか、トレーニングと推論コストを増加させる複雑な生成モデルを採用するかのどちらかです。
本稿では,ビデオ要約のための不確実性とデコーダ対応の学習フレームワークであるVASTSumを提案する。
提案手法は, 変動定式化を用いて確率的フレームレベルの重要度を予測し, マルチアノテータ監視による不確実性の明示的モデリングを可能にする。
主観性を考慮し、特にバイナリアノテーションの下では、単一のコンセンサスターゲットを強制するのではなく、もっともらしい人間のアノテーションモードとの整合を奨励する監督戦略を採用する。
さらに,knapsackに基づく要約選択の安定性を向上し,予測スコアの小さな摂動に対する感度を低下させるデコーダ整合正則化を提案する。
標準ランクに基づく指標を用いて,SumMe と TVSum のベンチマークで提案したフレームワークの評価を行った。
実験結果は、複数のデータ分割にまたがる一貫性のある競合するKendallとSpearmanの相関を示し、より効率的な単一フォワード推論を維持しながら、アノテーションの不一致の下で堅牢性を向上させることを示した。
これらの結果は,不確かさを明示的にモデル化し,学習目標を復号段階に整合させることが,決定論的・拡散的ビデオ要約法に取って代わる基本的選択肢であることを示している。
関連論文リスト
- MealRec: Multi-granularity Sequential Modeling via Hierarchical Diffusion Models for Micro-Video Recommendation [9.268996272239034]
マイクロビデオレコメンデーションは、対話されたマイクロビデオのコラボレーティブおよびコンテキスト情報からユーザの好みをキャプチャすることを目的としている。
マイクロビデオレコメンデーション(MealRec)のための階層拡散モデルを用いた多重粒度連続モデリング手法を提案する。
論文 参考訳(メタデータ) (2026-03-02T14:39:18Z) - ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning [44.49803237328707]
ReVSegは、事前訓練された視覚言語モデルのネイティブインターフェースにおけるシーケンシャルな決定として推論を実行する。
我々は、多段階推論連鎖を最適化するために強化学習を採用し、モデルが結果駆動信号から判断品質を自己定義できるようにする。
論文 参考訳(メタデータ) (2025-12-02T14:44:12Z) - Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning [29.427720184101474]
関連のあるビデオ検索は、あるクエリに関連するビデオを取得することを目的としている。
中心となる課題は、突発的なセマンティックな相関に対して、堅牢なクエリとビデオのアライメントを学ぶことだ。
データの不確実性を明示的にモデル化するRobust Alignment Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T11:30:43Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - UGG-ReID: Uncertainty-Guided Graph Model for Multi-Modal Object Re-Identification [26.770271366177603]
マルチモーダルオブジェクトReID(UGG-ReID)に対する不確実性誘導グラフモデルというロバストなアプローチを提案する。
UGG-ReIDは、ノイズ干渉を緩和し、効果的なマルチモーダル融合を促進するように設計されている。
実験結果から,提案手法は全データセットに対して優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-07-07T03:41:08Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。