論文の概要: Smoothed Gaussian Mixture Models for Video Classification and
Recommendation
- arxiv url: http://arxiv.org/abs/2012.11673v1
- Date: Thu, 17 Dec 2020 06:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:36:00.731669
- Title: Smoothed Gaussian Mixture Models for Video Classification and
Recommendation
- Title(参考訳): ビデオ分類と推薦のための平滑化ガウス混合モデル
- Authors: Sirjan Kafle, Aman Gupta, Xue Xia, Ananth Sankar, Xi Chen, Di Wen,
Liang Zhang
- Abstract要約: SGMM(S smoothed Gaussian mixed Model)と呼ばれる新しいクラスタ・アンド・アグリゲート法を提案する。
YouTube-8M分類タスクの広範な実験を通じて、SGMM/DSGMMはVLAD/NetVLADよりも一貫して優れていますが、統計的に有意なマージンを示しています。
- 参考スコア(独自算出の注目度): 10.119117405418868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cluster-and-aggregate techniques such as Vector of Locally Aggregated
Descriptors (VLAD), and their end-to-end discriminatively trained equivalents
like NetVLAD have recently been popular for video classification and action
recognition tasks. These techniques operate by assigning video frames to
clusters and then representing the video by aggregating residuals of frames
with respect to the mean of each cluster. Since some clusters may see very
little video-specific data, these features can be noisy. In this paper, we
propose a new cluster-and-aggregate method which we call smoothed Gaussian
mixture model (SGMM), and its end-to-end discriminatively trained equivalent,
which we call deep smoothed Gaussian mixture model (DSGMM). SGMM represents
each video by the parameters of a Gaussian mixture model (GMM) trained for that
video. Low-count clusters are addressed by smoothing the video-specific
estimates with a universal background model (UBM) trained on a large number of
videos. The primary benefit of SGMM over VLAD is smoothing which makes it less
sensitive to small number of training samples. We show, through extensive
experiments on the YouTube-8M classification task, that SGMM/DSGMM is
consistently better than VLAD/NetVLAD by a small but statistically significant
margin. We also show results using a dataset created at LinkedIn to predict if
a member will watch an uploaded video.
- Abstract(参考訳): VLAD(Vector of Locally Aggregated Descriptors)のようなクラスタ・アンド・アグリゲート技術や、NetVLADのようなエンドツーエンドの差別的に訓練された同等品は、最近ビデオ分類やアクション認識タスクで人気がある。
これらの手法は、ビデオフレームをクラスタに割り当て、各クラスタの平均に関するフレームの残余を集約することで、ビデオを表現する。
一部のクラスタはビデオ特有のデータが少ないため、これらの機能は騒がしい。
本稿では,sugmented gaussian mixture model (sgmm) と呼ばれる新しいクラスタ・アンド・アグリゲーション法と,そのエンドツーエンドの識別訓練された等価値である deep smoothed gaussian mixture model (dsgmm) を提案する。
SGMMは、そのビデオのために訓練されたガウス混合モデル(GMM)のパラメータによって、各ビデオを表す。
ローカウントクラスタは、多数のビデオでトレーニングされたユニバーサルバックグラウンドモデル(UBM)を用いて、ビデオ固有の見積をスムースにすることで対処される。
VLADに対するSGMMの主な利点はスムージングであり、少数のトレーニングサンプルに対する感度が低下する。
youtube-8m分類タスクの広範な実験を通じて、sgmm/dsgmmはvlad/netvladよりも小さいが統計的に有意なマージンで一貫して優れていることを示した。
また、LinkedInで作成されたデータセットを使って、メンバーがアップロードされたビデオを見るかどうかを予測する。
関連論文リスト
- Performance of Gaussian Mixture Model Classifiers on Embedded Feature Spaces [1.3241991482253108]
CLIPとImageBindによるデータ埋め込みは、マルチメディアおよび/またはマルチモーダルデータの分析に強力な機能を提供する。
本稿では,Gaussian Mixture Model (GMM) ベースの層を標準のSoftmaxレイヤの代替として利用して,それらの性能を分類するために評価する。
その結果,GMMの1つのガウス成分が各クラスを捕捉するのに十分である場合が多く,これらの組込み空間の訓練に使用される対照的な損失が原因である可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-17T10:43:43Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models [74.0430727476634]
結合分布 p(ピクセル特徴,クラス) の高密度な生成型分類器に依存する分割モデルの新たなファミリーを提案する。
さまざまなセグメンテーションアーキテクチャとバックボーンにより、GMMSegはクローズドセットデータセットにおいて差別的よりも優れています。
GMMSegは、オープンワールドデータセットでもうまく機能する。
論文 参考訳(メタデータ) (2022-10-05T05:20:49Z) - Bayesian Nonparametric Submodular Video Partition for Robust Anomaly
Detection [9.145168943972067]
MIL(Multiple-instance Learning)は、ビデオ異常検出問題に対処するための効果的な方法である。
我々は,MILモデルトレーニングを大幅に改善するために,新しいベイズ非パラメトリックサブモジュールビデオ分割(BN-SVP)を提案する。
我々の理論解析は,提案アルゴリズムの性能保証を確実にする。
論文 参考訳(メタデータ) (2022-03-24T04:00:49Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - Image Modeling with Deep Convolutional Gaussian Mixture Models [79.0660895390689]
画像の記述と生成に適したGMM(Deep Hierarchical Gaussian Mixture Models)の新しい定式化を紹介します。
DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。
dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。
MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示すことで,DCGMMsモデルを検証した。
論文 参考訳(メタデータ) (2021-04-19T12:08:53Z) - EGMM: an Evidential Version of the Gaussian Mixture Model for Clustering [22.586481334904793]
本稿では,信念関数の理論的枠組みにおいて,EGMM(evidential GMM)と呼ばれるモデルに基づくクラスタリングアルゴリズムを提案する。
EGMMのパラメータは、特別に設計された期待最大化(EM)アルゴリズムによって推定される。
提案したEGMMは従来のGMMと同じくらい単純であるが,検討されたデータセットに対して,より情報に富む明確な分割を生成することができる。
論文 参考訳(メタデータ) (2020-10-03T11:59:07Z) - Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。
我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2019-12-30T17:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。