論文の概要: Deep kernel video approximation for unsupervised action segmentation
- arxiv url: http://arxiv.org/abs/2604.21572v1
- Date: Thu, 23 Apr 2026 11:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.473736
- Title: Deep kernel video approximation for unsupervised action segmentation
- Title(参考訳): 教師なしアクションセグメンテーションのためのディープカーネルビデオ近似
- Authors: Silvia L. Pintea, Jouke Dijkstra,
- Abstract要約: この研究はビデオごとの教師なしアクションセグメンテーションに焦点を当てており、大規模なデータセットを保存できないアプリケーションに関心がある。
深層カーネル空間を学習し,その基盤となるフレーム分布を近似することにより,映像のセグメント化を提案する。
6つの標準ベンチマークで、最先端の動画手法と比較して、競争力のある結果を示す。
- 参考スコア(独自算出の注目度): 3.9635355962002197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work focuses on per-video unsupervised action segmentation, which is of interest to applications where storing large datasets is either not possible, or nor permitted. We propose to segment videos by learning in deep kernel space, to approximate the underlying frame distribution, as closely as possible. To define this closeness metric between the original video distribution and its approximation, we rely on maximum mean discrepancy (MMD) which is a geometry-preserving metric in distribution space, and thus gives more reliable estimates. Moreover, unlike the commonly used optimal transport metric, MMD is both easier to optimize, and faster. We choose to use neural tangent kernels (NTKs) to define the kernel space where MMD operates, because of their improved descriptive power as opposed to fixed kernels. And, also, because NTKs sidestep the trivial solution, when jointly learning the inputs (video approximation) and the kernel function. Finally, we show competitive results when compared to state-of-the-art per-video methods, on six standard benchmarks. Additionally, our method has higher F1 scores than prior agglomerative work, when the number of segments is unknown.
- Abstract(参考訳): この研究は、ビデオごとの教師なしアクションセグメンテーションに焦点を当てており、大規模なデータセットを保存できないアプリケーションや、許可されていないアプリケーションに関心がある。
本稿では,深層カーネル空間を学習し,基盤となるフレーム分布を極力近いものにするために,ビデオのセグメント化を提案する。
元の映像分布と近似との近接度距離を定義するために、分布空間における幾何保存距離である最大平均誤差(MMD)に依存し、より信頼性の高い推定値を与える。
さらに、一般的に使われている最適輸送量とは異なり、MDDは最適化が容易で、高速である。
我々は、固定されたカーネルとは対照的に記述力が改善されたため、MDDが動作するカーネル空間を定義するために、ニューラル・タンジェント・カーネル(NTK)を使用することを選択する。
また、NTKは入力(ビデオ近似)とカーネル関数を共同で学習する際に、自明な解を横に進む。
最後に、6つの標準ベンチマークで、最先端の動画手法と比較して、競争力のある結果を示す。
さらに,本手法は,セグメント数が不明な場合よりもF1スコアが高い。
関連論文リスト
- Scalable Kernel-Based Distances for Statistical Inference and Integration [0.8122270502556375]
最大平均誤差(英: Maximum mean discrepancy、MMD)は、ヒルベルト空間平均関数を比較することによって構築されたカーネルベースの距離である。
MMDはその計算的トラクタビリティのために大きな注目を集めており、実践者によって好まれている。
本論では,効率的な計算に焦点をあてたカーネルベース距離の徹底的な研究を行う。
論文 参考訳(メタデータ) (2026-02-25T12:25:34Z) - MOKD: Cross-domain Finetuning for Few-shot Classification via Maximizing Optimized Kernel Dependence [97.93517982908007]
NCCは、ドメイン間数ショットの分類において、少数ショットの分類が可能なメートル法空間を構築するために表現を学ぶことを目的としている。
本稿では,異なるクラスから得られた2つの標本の NCC 学習表現に高い類似性があることを見出した。
ラベル付きデータによって示されるクラスタ構造にマッチするクラス固有の表現の集合を学習するために、最適化されたカーネル依存(MOKD)を最大化する二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-29T05:59:52Z) - Spectrum-guided Multi-granularity Referring Video Object Segmentation [56.95836951559529]
現在の参照ビデオオブジェクトセグメンテーション(R-VOS)技術は、符号化された(低解像度)視覚言語特徴から条件付きカーネルを抽出し、デコードされた高解像度特徴をセグメンテーションする。
これは、セグメント化カーネルが前方の計算で知覚に苦慮する重要な特徴の漂流を引き起こす。
符号化された特徴に対して直接セグメント化を行い,マスクをさらに最適化するために視覚的詳細を利用するスペクトル誘導多粒度手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T14:35:25Z) - Kernel Subspace and Feature Extraction [7.424262881242935]
特徴部分空間の観点から,機械学習におけるカーネル手法について検討する。
我々は、ヒルシュフェルト-ゲベライン-レーニの最大相関関数からカーネルを構築し、最大相関カーネルを作成し、その情報理論の最適性を示す。
論文 参考訳(メタデータ) (2023-01-04T02:46:11Z) - Structural Kernel Search via Bayesian Optimization and Symbolical
Optimal Transport [5.1672267755831705]
ガウスのプロセスでは、カーネルの選択は重要なタスクであり、しばしば専門家が手動で行う。
本稿では,カーネル空間を包含する新しい効率的な探索法を提案する。
論文 参考訳(メタデータ) (2022-10-21T09:30:21Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Multiple Video Frame Interpolation via Enhanced Deformable Separable
Convolution [67.83074893311218]
カーネルベースの手法は、ソースフレームと空間適応型ローカルカーネルを囲む単一の畳み込みプロセスでピクセルを予測する。
本稿では,適応カーネルだけでなく,オフセット,マスク,バイアスを推定するための拡張変形性分離畳み込み(EDSC)を提案する。
提案手法は,幅広いデータセットを対象とした最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-06-15T01:10:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。