論文の概要: Multi Activity Sequence Alignment via Implicit Clustering
- arxiv url: http://arxiv.org/abs/2503.12519v1
- Date: Sun, 16 Mar 2025 14:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:00.328525
- Title: Multi Activity Sequence Alignment via Implicit Clustering
- Title(参考訳): インプシットクラスタリングによるマルチアクティビティシーケンスアライメント
- Authors: Taein Kwon, Zador Pataki, Mahdi Rad, Marc Pollefeys,
- Abstract要約: 暗黙のクラスタリングによるシーケンスアライメントによる制約を克服する新しいフレームワークを提案する。
具体的には、列内のフレームをアライメントしながら、暗黙的なクリップレベルのクラスタリングを行うという考え方です。
実験の結果,提案手法は最先端の結果よりも優れていた。
- 参考スコア(独自算出の注目度): 50.3168866743067
- License:
- Abstract: Self-supervised temporal sequence alignment can provide rich and effective representations for a wide range of applications. However, existing methods for achieving optimal performance are mostly limited to aligning sequences of the same activity only and require separate models to be trained for each activity. We propose a novel framework that overcomes these limitations using sequence alignment via implicit clustering. Specifically, our key idea is to perform implicit clip-level clustering while aligning frames in sequences. This coupled with our proposed dual augmentation technique enhances the network's ability to learn generalizable and discriminative representations. Our experiments show that our proposed method outperforms state-of-the-art results and highlight the generalization capability of our framework with multi activity and different modalities on three diverse datasets, H2O, PennAction, and IKEA ASM. We will release our code upon acceptance.
- Abstract(参考訳): 自己教師付き時間シーケンスアライメントは、広範囲のアプリケーションに対してリッチで効果的な表現を提供することができる。
しかしながら、最適なパフォーマンスを達成するための既存の方法は、ほとんどの場合、同一アクティビティのシーケンスの整列に制限され、各アクティビティに対して個別のモデルをトレーニングする必要がある。
暗黙のクラスタリングによるシーケンスアライメントを用いて,これらの制限を克服する新しいフレームワークを提案する。
具体的には、列内のフレームをアライメントしながら、暗黙的なクリップレベルのクラスタリングを行うという考え方です。
これにより、提案手法と組み合わせることで、一般化可能な識別表現を学習するネットワークの能力が向上する。
実験の結果,提案手法は,H2O, PennAction, IKEA ASMの3つの多様なデータセットに対して, マルチアクティビティと異なるモダリティを持つフレームワークの一般化能力に優れることがわかった。
私たちは受け入れ次第コードを公開します。
関連論文リスト
- Graph Cut-guided Maximal Coding Rate Reduction for Learning Image Embedding and Clustering [2.4503870408262354]
本稿では,構造化埋め込みとクラスタリングを共同で学習するための統合フレームワーク,CgMCR(Cut-guided Maximal Coding Rate Reduction)を提案する。
我々は、標準画像データセットと外部画像データセットの両方について広範な実験を行い、提案手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-12-25T15:20:54Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - A3S: A General Active Clustering Method with Pairwise Constraints [66.74627463101837]
A3Sは、適応クラスタリングアルゴリズムによって得られる初期クラスタ結果に対して、戦略的にアクティブクラスタリングを調整する。
さまざまな実世界のデータセットにわたる広範な実験において、A3Sは、人間のクエリを著しく少なくして、望ましい結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T13:37:03Z) - One-step Multi-view Clustering with Diverse Representation [47.41455937479201]
本稿では,多視点学習と$k$-meansを統合フレームワークに組み込んだ一段階のマルチビュークラスタリングを提案する。
そこで本研究では,効率の良い最適化アルゴリズムを開発し,その解法について述べる。
論文 参考訳(メタデータ) (2023-06-08T02:52:24Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Multi-view Multi-behavior Contrastive Learning in Recommendation [52.42597422620091]
マルチビヘイビアレコメンデーション(MBR)は、目標行動のパフォーマンスを改善するために、複数の振る舞いを共同で検討することを目的としている。
本稿では,新しいマルチビヘイビア・マルチビュー・コントラスト学習勧告フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-20T15:13:28Z) - Weighted Sparse Subspace Representation: A Unified Framework for
Subspace Clustering, Constrained Clustering, and Active Learning [0.3553493344868413]
まず,近距離点の疎凸結合として各点を表現しようとするスペクトルに基づく新しい部分空間クラスタリングアルゴリズムを提案する。
次に、アルゴリズムを制約付きクラスタリングとアクティブな学習設定に拡張します。
このようなフレームワークを開発する動機は、通常、少量のラベル付きデータが事前に利用可能であるという事実や、いくつかのポイントをコストでラベル付けできるという事実に起因しています。
論文 参考訳(メタデータ) (2021-06-08T13:39:43Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Deep Multi-Modal Sets [29.983311598563542]
ディープ・マルチモーダル・セット(Deep Multi-Modal Sets)は、1つの長く成長する固定サイズのベクトルではなく、非順序集合として特徴の集合を表現する技法である。
さまざまなタイプのタスクを学習するために,さまざまなモダリティを理由として,スケーラブルでマルチモーダルなフレームワークを実証する。
論文 参考訳(メタデータ) (2020-03-03T15:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。