論文の概要: TRIM: A Self-Supervised Video Summarization Framework Maximizing Temporal Relative Information and Representativeness
- arxiv url: http://arxiv.org/abs/2506.20588v1
- Date: Wed, 25 Jun 2025 16:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.849278
- Title: TRIM: A Self-Supervised Video Summarization Framework Maximizing Temporal Relative Information and Representativeness
- Title(参考訳): TRIM: 時間的相対情報と代表性を最大化する自己監督型ビデオ要約フレームワーク
- Authors: Pritam Mishra, Coloma Ballester, Dimosthenis Karatzas,
- Abstract要約: 本稿では,空間的および時間的依存関係を,注目やRNN,トランスフォーマーのオーバーヘッドを伴わずにキャプチャする自己教師付きビデオ要約モデルを提案する。
我々のフレームワークは、Markovプロセス駆動の損失メトリクスの新たなセットと、パフォーマンスと効率の両方を保証する2段階の自己教師付き学習パラダイムを統合しています。
- 参考スコア(独自算出の注目度): 9.374702244811303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing ubiquity of video content and the corresponding demand for efficient access to meaningful information have elevated video summarization and video highlights as a vital research area. However, many state-of-the-art methods depend heavily either on supervised annotations or on attention-based models, which are computationally expensive and brittle in the face of distribution shifts that hinder cross-domain applicability across datasets. We introduce a pioneering self-supervised video summarization model that captures both spatial and temporal dependencies without the overhead of attention, RNNs, or transformers. Our framework integrates a novel set of Markov process-driven loss metrics and a two-stage self supervised learning paradigm that ensures both performance and efficiency. Our approach achieves state-of-the-art performance on the SUMME and TVSUM datasets, outperforming all existing unsupervised methods. It also rivals the best supervised models, demonstrating the potential for efficient, annotation-free architectures. This paves the way for more generalizable video summarization techniques and challenges the prevailing reliance on complex architectures.
- Abstract(参考訳): ビデオコンテンツの普及と、意味のある情報への効率的なアクセスの要求により、ビデオの要約とビデオハイライトが重要な研究領域となっている。
しかし、多くの最先端の手法は、教師付きアノテーションやアテンションベースのモデルに大きく依存しており、これは計算コストが高く、データセット間のクロスドメイン適用性を阻害する分散シフトに直面して脆弱である。
本稿では,空間的および時間的依存関係を注目やRNN,トランスフォーマーのオーバーヘッドを伴わずにキャプチャする,自己教師型ビデオ要約モデルを提案する。
我々のフレームワークは、Markovプロセス駆動の損失メトリクスの新たなセットと、パフォーマンスと効率の両方を保証する2段階の自己教師付き学習パラダイムを統合しています。
提案手法は,SUMMEおよびTVSUMデータセットの最先端性能を実現し,既存の教師なし手法よりも優れていた。
また、最も優れた教師付きモデルと競合し、効率的でアノテーションのないアーキテクチャの可能性を示している。
これにより、より一般化可能なビデオ要約技法の道が開け、複雑なアーキテクチャへの依存に挑戦する。
関連論文リスト
- COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition [3.271109623410664]
ビデオモダリティからIMUモダリティへのリッチな意味的知識をラベル付きアノテーションを必要とせずに伝達するクロスモーダルな自己教師型蒸留フレームワークであるCOMODOを提案する。
我々のアプローチは、IMUエンコーダが実世界のアプリケーションのためにその効率を保ちながら、ビデオからリッチなセマンティック情報を継承することを可能にする。
論文 参考訳(メタデータ) (2025-03-10T12:43:51Z) - Enhancing Video Summarization with Context Awareness [9.861215740353247]
ビデオ要約は、ビデオの本質をキャプチャするテクニック、ショット、セグメントを選択することで、簡潔な要約を自動的に生成する。
ビデオ要約の重要性にもかかわらず、多様で代表的なデータセットが不足している。
本稿では,映像データ構造と情報を活用して情報要約を生成する教師なし手法を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:08:34Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Self-Attention Based Generative Adversarial Networks For Unsupervised
Video Summarization [78.2700757742992]
我々は、GAN(Generative Adversarial Network)をトレーニングして、代表要約を作成する人気手法を構築した。
本稿では,フレーム選択のための自己認識機構と,符号化と復号のためのLSTMを組み合わせたSUM-GAN-AEDモデルを提案する。
論文 参考訳(メタデータ) (2023-07-16T19:56:13Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - Exploring global diverse attention via pairwise temporal relation for
video summarization [84.28263235895798]
我々は,Global Diverse Attentionによるビデオ要約のための効率的な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したモデルは計算コストを大幅に削減して並列に実行できる。
論文 参考訳(メタデータ) (2020-09-23T06:29:09Z) - Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。
我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文 参考訳(メタデータ) (2020-06-02T06:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。