論文の概要: DuoCLR: Dual-Surrogate Contrastive Learning for Skeleton-based Human Action Segmentation
- arxiv url: http://arxiv.org/abs/2509.05543v1
- Date: Fri, 05 Sep 2025 23:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.571163
- Title: DuoCLR: Dual-Surrogate Contrastive Learning for Skeleton-based Human Action Segmentation
- Title(参考訳): DuoCLR: 骨格に基づくヒューマンアクションセグメンテーションのためのデュアルサロゲートコントラスト学習
- Authors: Haitao Tian, Pierre Payeur,
- Abstract要約: 事前学習による人間の行動セグメンテーションを強化するために, 対照的な表現学習フレームワークを提案する。
提案するフレームワークは,マルチスケール表現とクロスシーケンスのバリエーションの併用に重点を置いている。
実験では、DuoCLRはトリミングされたスケルトンデータセットで事前トレーニングされ、トリミングされていないデータセットで評価される。
- 参考スコア(独自算出の注目度): 6.660458629649825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, a contrastive representation learning framework is proposed to enhance human action segmentation via pre-training using trimmed (single action) skeleton sequences. Unlike previous representation learning works that are tailored for action recognition and that build upon isolated sequence-wise representations, the proposed framework focuses on exploiting multi-scale representations in conjunction with cross-sequence variations. More specifically, it proposes a novel data augmentation strategy, 'Shuffle and Warp', which exploits diverse multi-action permutations. The latter effectively assists two surrogate tasks that are introduced in contrastive learning: Cross Permutation Contrasting (CPC) and Relative Order Reasoning (ROR). In optimization, CPC learns intra-class similarities by contrasting representations of the same action class across different permutations, while ROR reasons about inter-class contexts by predicting relative mapping between two permutations. Together, these tasks enable a Dual-Surrogate Contrastive Learning (DuoCLR) network to learn multi-scale feature representations optimized for action segmentation. In experiments, DuoCLR is pre-trained on a trimmed skeleton dataset and evaluated on an untrimmed dataset where it demonstrates a significant boost over state-the-art comparatives in both multi-class and multi-label action segmentation tasks. Lastly, ablation studies are conducted to evaluate the effectiveness of each component of the proposed approach.
- Abstract(参考訳): 本稿では, トリミング(単一動作)スケルトン配列を用いた事前訓練により, 人間の行動セグメンテーションを強化するために, コントラスト表現学習フレームワークを提案する。
動作認識に適した従来の表現学習作業と異なり,提案するフレームワークは,シーケンス間の変動を伴うマルチスケール表現の活用に重点を置いている。
具体的には、多様なマルチアクションの置換を利用する新しいデータ拡張戦略「Shuffle and Warp」を提案する。
後者は、CPC(Cross Permutation Contrasting)とROR(Relative Order Reasoning)という、対照的な学習で導入された2つの代理タスクを効果的に支援する。
最適化において、CPCは異なる置換間で同じ作用クラスの表現を対比することによりクラス内の類似性を学習し、RORは2つの置換間の相対写像を予測することによってクラス間のコンテキストを推論する。
これらのタスクによって、DuoCLR(Dual-Surrogate Contrastive Learning)ネットワークは、アクションセグメンテーションに最適化されたマルチスケールの特徴表現を学習することができる。
実験では、DuoCLRはトリミングされたスケルトンデータセットで事前トレーニングされ、トリミングされていないデータセットで評価される。
最後に,提案手法のそれぞれの成分の有効性を評価するためにアブレーション研究を行った。
関連論文リスト
- Multi Activity Sequence Alignment via Implicit Clustering [50.3168866743067]
暗黙のクラスタリングによるシーケンスアライメントによる制約を克服する新しいフレームワークを提案する。
具体的には、列内のフレームをアライメントしながら、暗黙的なクリップレベルのクラスタリングを行うという考え方です。
実験の結果,提案手法は最先端の結果よりも優れていた。
論文 参考訳(メタデータ) (2025-03-16T14:28:46Z) - IPSeg: Image Posterior Mitigates Semantic Drift in Class-Incremental Segmentation [77.06177202334398]
CISSにおけるセマンティックドリフトとデグレード性能に寄与する2つの重要な課題を特定した。
まず、モデルの異なる部分が異なる漸進的な段階に最適化されるという、別々の最適化の問題を強調します。
第二に、不適切な擬似ラベルから生じる雑音のセマンティクスを同定し、その結果、準最適結果が得られる。
論文 参考訳(メタデータ) (2025-02-07T12:19:37Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - RankCLIP: Ranking-Consistent Language-Image Pretraining [7.92247304974314]
RankCLIPはCLIPの厳格な1対1マッチングフレームワークを超えて拡張された、新しい事前トレーニング手法である。
従来のペアワイズ損失をリストワイズに拡張することで、RancCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンスな多対多の関係をキャプチャする。
論文 参考訳(メタデータ) (2024-04-15T00:12:27Z) - Advancing Relation Extraction through Language Probing with Exemplars
from Set Co-Expansion [1.450405446885067]
関係抽出(RE)は、構造化されていないテキストから構造化情報を自動的に抽出する重要なタスクである。
代表例を統合し,コセット展開を通じて多面的アプローチを提案する。
提案手法は,ほとんどの設定において,少なくとも1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-08-18T00:56:35Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Robust Representation Learning by Clustering with Bisimulation Metrics
for Visual Reinforcement Learning with Distractions [9.088460902782547]
Bisimulation Metrics (CBM) によるクラスタリングは、潜在空間における視覚的観察をグループ化することで、堅牢な表現を学習する。
CBMは,(1)実測距離を学習プロトタイプと測定することで観測をグループ化すること,(2)現在のクラスタ割り当てに従ってプロトタイプの集合を学習すること,の2つのステップを交互に行う。
実験により、CBMは一般的なビジュアルRLアルゴリズムのサンプル効率を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-02-12T13:27:34Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。