論文の概要: TRIMMER: A New Paradigm for Video Summarization through Self-Supervised Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.01659v1
- Date: Sun, 03 May 2026 00:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.872718
- Title: TRIMMER: A New Paradigm for Video Summarization through Self-Supervised Reinforcement Learning
- Title(参考訳): TRIMMER:自己監督型強化学習によるビデオ要約のための新しいパラダイム
- Authors: Pritam Mishra, Coloma Ballester, Dimosthenis Karatzas,
- Abstract要約: 本稿では,映像要約のための自己教師型強化学習フレームワークを提案する。
教師なし,自己教師なしの手法で最先端の性能を実現することを示す。
教師付きアプローチの先導と競合し続けており、スケーラブルで一般的なビデオ要約の有効性を強調している。
- 参考スコア(独自算出の注目度): 8.864968998286772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of video content across domains such as surveillance, education, and social media has made efficient content understanding increasingly critical. Video summarization addresses this challenge by generating concise yet semantically meaningful representations, but existing approaches often rely on expensive manual annotations, struggle to generalize across domains, and incur significant computational costs due to complex architectures. Moreover, unsupervised and weakly supervised methods typically underperform compared to supervised counterparts in capturing long-range temporal dependencies and semantic structure. In this work, we propose TRIMMER (Temporal Relative Information Maximization for Multi-objective Efficient Reinforcement), a novel self-supervised reinforcement learning framework for video summarization. TRIMMER operates in two stages: it first learns robust representations via self-supervised learning and then performs spatio-temporal decision making through reinforcement learning guided by information-theoretic reward functions. Unlike prior approaches that rely on similarity-based objectives, our method introduces entropy-based metrics to capture higher-order temporal dynamics and semantic diversity, while computing rewards directly over selected frame indices to improve computational efficiency. Extensive experiments on standard benchmarks demonstrate that TRIMMER achieves state-of-the-art performance among unsupervised and self-supervised methods, while remaining competitive with leading supervised approaches, highlighting its effectiveness for scalable and generalizable video summarization.
- Abstract(参考訳): 監視、教育、ソーシャルメディアといった分野におけるビデオコンテンツの急速な成長により、効率的なコンテンツ理解がますます重要になっている。
ビデオ要約は、簡潔で意味のある表現を生成することでこの問題に対処するが、既存のアプローチは、しばしば高価な手作業のアノテーションに頼り、ドメインをまたいで一般化するのに苦労し、複雑なアーキテクチャによって計算コストが大幅に上昇する。
さらに、教師なしおよび弱教師付き手法は、長期の時間的依存関係と意味的構造をキャプチャする際の教師付き手法に比べて、典型的には性能が劣る。
本研究では,映像要約のための自己教師型強化学習フレームワークであるTRIMMER(Temporal Relative Information Maximization for Multi-jective Efficient Reinforcement)を提案する。
TRIMMERは、まず自己教師付き学習を通して堅牢な表現を学習し、次に情報理論の報酬関数によって導かれる強化学習を通して時空間決定を行う。
類似性に基づく従来の手法とは異なり,提案手法では高次時間的ダイナミクスと意味的多様性を捉えるためにエントロピーに基づくメトリクスを導入し,計算効率を向上させるために選択されたフレーム指標を直接計算する。
標準ベンチマークに関する大規模な実験により、TRIMMERは教師なしおよび自己教師付き手法の間で最先端のパフォーマンスを達成する一方で、指導的手法と競合し続け、スケーラブルで一般化可能なビデオ要約の有効性を強調した。
関連論文リスト
- Semantic-Guided Unsupervised Video Summarization [5.891053607698674]
本稿では,セマンティックガイドによる教師なしビデオ要約手法を提案する。
具体的には,新しいフレームレベルのセマンティックアライメント・アテンション・アテンション・セレクタを設計する。
さらに、段階的なトレーニング戦略を採用して、モデルコンポーネントを段階的に更新し、GANトレーニングの不安定性を効果的に軽減する。
論文 参考訳(メタデータ) (2026-01-21T08:53:29Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - TRIM: A Self-Supervised Video Summarization Framework Maximizing Temporal Relative Information and Representativeness [9.374702244811303]
本稿では,空間的および時間的依存関係を,注目やRNN,トランスフォーマーのオーバーヘッドを伴わずにキャプチャする自己教師付きビデオ要約モデルを提案する。
我々のフレームワークは、Markovプロセス駆動の損失メトリクスの新たなセットと、パフォーマンスと効率の両方を保証する2段階の自己教師付き学習パラダイムを統合しています。
論文 参考訳(メタデータ) (2025-06-25T16:27:38Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。