論文の概要: Semantic-Guided Unsupervised Video Summarization
- arxiv url: http://arxiv.org/abs/2601.14773v1
- Date: Wed, 21 Jan 2026 08:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.29645
- Title: Semantic-Guided Unsupervised Video Summarization
- Title(参考訳): セマンティックガイドによる教師なしビデオ要約
- Authors: Haizhou Liu, Haodong Jin, Yiming Wang, Hui Yu,
- Abstract要約: 本稿では,セマンティックガイドによる教師なしビデオ要約手法を提案する。
具体的には,新しいフレームレベルのセマンティックアライメント・アテンション・アテンション・セレクタを設計する。
さらに、段階的なトレーニング戦略を採用して、モデルコンポーネントを段階的に更新し、GANトレーニングの不安定性を効果的に軽減する。
- 参考スコア(独自算出の注目度): 5.891053607698674
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video summarization is a crucial technique for social understanding, enabling efficient browsing of massive multimedia content and extraction of key information from social platforms. Most existing unsupervised summarization methods rely on Generative Adversarial Networks (GANs) to enhance keyframe selection and generate coherent, video summaries through adversarial training. However, such approaches primarily exploit unimodal features, overlooking the guiding role of semantic information in keyframe selection, and often suffer from unstable training. To address these limitations, we propose a novel Semantic-Guided Unsupervised Video Summarization method. Specifically, we design a novel frame-level semantic alignment attention mechanism and integrate it into a keyframe selector, which guides the Transformer-based generator within the adversarial framework to better reconstruct videos. In addition, we adopt an incremental training strategy to progressively update the model components, effectively mitigating the instability of GAN training. Experimental results demonstrate that our approach achieves superior performance on multiple benchmark datasets.
- Abstract(参考訳): ビデオ要約は社会的理解にとって重要な手法であり、大量のマルチメディアコンテンツを効率的に閲覧し、ソーシャルプラットフォームから重要な情報を抽出することを可能にする。
既存の教師なし要約手法の多くは、鍵フレームの選択を強化し、対数訓練を通じてコヒーレントなビデオ要約を生成するために、GAN(Generative Adversarial Networks)に依存している。
しかし、このようなアプローチは、キーフレーム選択における意味情報の役割を見落とし、不安定な訓練に悩まされるなど、一助的特徴を主に活用する。
これらの制約に対処するために,セマンティックガイドによる教師なしビデオ要約手法を提案する。
具体的には、新しいフレームレベルのセマンティックアライメントアテンションアテンション機構を設計し、それをキーフレームセレクタに統合し、逆向きのフレームワーク内でトランスフォーマーベースのジェネレータを誘導し、ビデオの再構成を改善する。
さらに、段階的なトレーニング戦略を採用して、モデルコンポーネントを段階的に更新し、GANトレーニングの不安定性を効果的に軽減する。
実験により,本手法は複数のベンチマークデータセットにおいて優れた性能を示すことが示された。
関連論文リスト
- ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。