論文の概要: Learnable Optimal Sequential Grouping for Video Scene Detection
- arxiv url: http://arxiv.org/abs/2205.08249v1
- Date: Tue, 17 May 2022 11:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 13:58:06.669535
- Title: Learnable Optimal Sequential Grouping for Video Scene Detection
- Title(参考訳): 映像シーン検出のための学習可能な最適シーケンスグルーピング
- Authors: Daniel Rotman, Yevgeny Yaroker, Elad Amrani, Udi Barzelay, Rami
Ben-Ari
- Abstract要約: 最適シーケンスグループ(OSG)の能力を学習体制に拡張する。
各種構成下での深層学習ニューラルネットワークへのOSGの導入に関する包括的分析を行う。
- 参考スコア(独自算出の注目度): 11.890809661723502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video scene detection is the task of dividing videos into temporal semantic
chapters. This is an important preliminary step before attempting to analyze
heterogeneous video content. Recently, Optimal Sequential Grouping (OSG) was
proposed as a powerful unsupervised solution to solve a formulation of the
video scene detection problem. In this work, we extend the capabilities of OSG
to the learning regime. By giving the capability to both learn from examples
and leverage a robust optimization formulation, we can boost performance and
enhance the versatility of the technology. We present a comprehensive analysis
of incorporating OSG into deep learning neural networks under various
configurations. These configurations include learning an embedding in a
straight-forward manner, a tailored loss designed to guide the solution of OSG,
and an integrated model where the learning is performed through the OSG
pipeline. With thorough evaluation and analysis, we assess the benefits and
behavior of the various configurations, and show that our learnable OSG
approach exhibits desirable behavior and enhanced performance compared to the
state of the art.
- Abstract(参考訳): ビデオシーン検出は、動画を時間意味章に分割するタスクである。
これは異種ビデオコンテンツを分析する前に重要な予備段階である。
近年,映像シーン検出問題の定式化を解決するために,OSG(Optimal Sequential Grouping)が強力な教師なしソリューションとして提案されている。
本研究は,OSGの能力を学習体制に拡張するものである。
例から学び、堅牢な最適化定式化を活用することによって、パフォーマンスを高め、技術の汎用性を高めることができます。
各種構成下での深層学習ニューラルネットワークへのOSGの導入に関する包括的分析を行う。
これらの構成には、直接フォワードで埋め込みを学ぶこと、OSGのソリューションを導くために設計された調整された損失、OSGパイプラインを通じて学習を行う統合モデルが含まれる。
徹底的な評価と分析により, 各種構成の利点と挙動を評価し, 学習可能なOSGアプローチは, 技術状況と比較して望ましい動作を示し, 性能が向上していることを示す。
関連論文リスト
- ASF-Net: Robust Video Deraining via Temporal Alignment and Online
Adaptive Learning [47.10392889695035]
本稿では,時間シフトモジュールを組み込んだ新しい計算パラダイムであるアライメント・シフト・フュージョン・ネットワーク(ASF-Net)を提案する。
LArgeスケールのRAINYビデオデータセット(LARA)を構築し,このコミュニティの開発を支援する。
提案手法は,3つのベンチマークにおいて優れた性能を示し,実世界のシナリオにおいて魅力的な視覚的品質を示す。
論文 参考訳(メタデータ) (2023-09-02T14:50:13Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Adaptive Intermediate Representations for Video Understanding [50.64187463941215]
映像理解の中間表現としてセマンティックセグメンテーションを活用する新しい方法を紹介します。
本稿では,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習する汎用フレームワークを提案する。
我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。
論文 参考訳(メタデータ) (2021-04-14T21:37:23Z) - A Reinforcement-Learning-Based Energy-Efficient Framework for Multi-Task
Video Analytics Pipeline [16.72264118199915]
ビデオ分析パイプラインは、高いデータレートと複雑な推論アルゴリズムに依存するため、エネルギー集約的である。
マルチタスクビデオ解析パイプラインのエネルギー使用を最小限に抑える適応解像度最適化フレームワークを提案する。
私たちのフレームワークは、YouTube-VISデータセットで同様の精度の全てのベースラインメソッドを大幅に上回りました。
論文 参考訳(メタデータ) (2021-04-09T15:44:06Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - ALBA : Reinforcement Learning for Video Object Segmentation [11.29255792513528]
ゼロショットビデオオブジェクトセグメンテーション(VOS)の課題について考察する。
我々はこれを、オブジェクトの提案を活用し、空間と時間の両方でグループ化に関する共同推論を行うことによって、グループ化問題として扱う。
提案手法はALBAと呼ばれ,従来の3つのベンチマークよりも優れていた。
論文 参考訳(メタデータ) (2020-05-26T20:57:28Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。