論文の概要: Improving action segmentation via explicit similarity measurement
- arxiv url: http://arxiv.org/abs/2502.10713v1
- Date: Sat, 15 Feb 2025 08:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:11:35.994307
- Title: Improving action segmentation via explicit similarity measurement
- Title(参考訳): 明示的類似度測定による行動セグメンテーションの改善
- Authors: Kamel Aouaidjia, Wenhao Zhang, Aofan Li, Chongsheng Zhang,
- Abstract要約: 本稿では,セグメント化精度を高めるために,フレーム間および予測間の明らかな類似性評価を提案する。
教師付き学習アーキテクチャでは,トランスフォーマーエンコーダへの入力として,フレームレベルのマルチレゾリューション機能を利用する。
本稿では,連続フレーム間の特徴類似性に基づいた境界補正アルゴリズムを提案する。
また,非教師付き境界検出補正を提案する。
- 参考スコア(独自算出の注目度): 5.303583360581161
- License:
- Abstract: Existing supervised action segmentation methods depend on the quality of frame-wise classification using attention mechanisms or temporal convolutions to capture temporal dependencies. Even boundary detection-based methods primarily depend on the accuracy of an initial frame-wise classification, which can overlook precise identification of segments and boundaries in case of low-quality prediction. To address this problem, this paper proposes ASESM (Action Segmentation via Explicit Similarity Measurement) to enhance the segmentation accuracy by incorporating explicit similarity evaluation across frames and predictions. Our supervised learning architecture uses frame-level multi-resolution features as input to multiple Transformer encoders. The resulting multiple frame-wise predictions are used for similarity voting to obtain high quality initial prediction. We apply a newly proposed boundary correction algorithm that operates based on feature similarity between consecutive frames to adjust the boundary locations iteratively through the learning process. The corrected prediction is then further refined through multiple stages of temporal convolutions. As post-processing, we optionally apply boundary correction again followed by a segment smoothing method that removes outlier classes within segments using similarity measurement between consecutive predictions. Additionally, we propose a fully unsupervised boundary detection-correction algorithm that identifies segment boundaries based solely on feature similarity without any training. Experiments on 50Salads, GTEA, and Breakfast datasets show the effectiveness of both the supervised and unsupervised algorithms. Code and models are made available on Github.
- Abstract(参考訳): 既存の教師付きアクションセグメンテーション手法は、時間的依存を捉えるために注意機構や時間的畳み込みを用いたフレームワイズ分類の品質に依存する。
境界検出に基づく手法でさえも、品質の低い予測の場合、セグメントと境界の正確な識別を見逃すことができる初期フレームワイズ分類の精度に大きく依存する。
そこで本稿では,フレームと予測間の明示的な類似性評価を取り入れたASESM(Action Segmentation via Explicit similarity Measurement)を提案する。
教師付き学習アーキテクチャでは,複数のトランスフォーマーエンコーダへの入力として,フレームレベルのマルチレゾリューション機能を利用する。
その結果、複数のフレームワイズ予測が類似投票に使われ、高品質な初期予測が得られる。
本稿では,連続するフレーム間の特徴的類似性に基づいて動作し,学習過程を通じて境界位置を反復的に調整する境界補正アルゴリズムを提案する。
修正された予測は、時間的畳み込みの複数の段階を通じてさらに洗練される。
後処理として,連続予測間の類似度測定を用いてセグメント内の外れ値クラスを除去するセグメント平滑化法を任意に適用する。
さらに,非教師付き境界検出補正アルゴリズムを提案する。
50Salads、GTEA、Breakfastのデータセットの実験は、教師なしアルゴリズムと教師なしアルゴリズムの両方の有効性を示している。
コードとモデルはGithubで公開されている。
関連論文リスト
- A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - RankSEG: A Consistent Ranking-based Framework for Segmentation [5.166970737490847]
我々はベイズ則やDice-/IoU-校正を含むDice/IoUメトリクスに関するセグメンテーションの理論的基礎を確立する。
ベイズのセグメンテーションルールのプラグインルールにインスパイアされた新しい一貫したランキングベースのフレームワークであるRandDice/RankIoUを提案する。
論文 参考訳(メタデータ) (2022-06-27T07:12:31Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。
本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T23:12:05Z) - Guided Interactive Video Object Segmentation Using Reliability-Based
Attention Maps [55.94785248905853]
本論文では,映像オブジェクトの対話的セグメンテーション(GIS)アルゴリズムを提案し,セグメンテーション精度の向上と対話時間の短縮を図る。
我々は,隣接フレームにセグメンテーション結果を伝達する,交差点対応伝搬モジュールを開発した。
実験により,提案アルゴリズムは従来のアルゴリズムよりも高速に精度の高いセグメンテーション結果を提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T07:08:57Z) - Learning structure-aware semantic segmentation with image-level
supervision [36.40302533324508]
CAMにおける失われた構造情報は、下流セマンティックセマンティックセグメンテーションにおけるその応用を制限すると論じる。
劣化予測をペナルティ化する補助意味境界検出モジュールを紹介します。
PASCAL-VOCデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-04-15T03:33:20Z) - Unsupervised Learning of Image Segmentation Based on Differentiable
Feature Clustering [14.074732867392008]
本研究では、教師なし画像分割における畳み込みニューラルネットワーク(CNN)の利用について検討した。
本稿では、正規化と、微分可能なクラスタリングのためのargmax関数からなる、教師なし画像セグメンテーションのエンドツーエンドネットワークを提案する。
第3に,既存の手法よりも精度がよいユーザ入力として,スクリブルを用いたセグメント化手法の拡張を提案する。
論文 参考訳(メタデータ) (2020-07-20T10:28:36Z) - Fast Template Matching and Update for Video Object Tracking and
Segmentation [56.465510428878]
私たちが取り組もうとしている主な課題は、フレームの列にまたがるマルチインスタンスの半教師付きビデオオブジェクトセグメンテーションである。
課題は、結果を予測するためのマッチングメソッドの選択と、ターゲットテンプレートを更新するかどうかを決定することである。
本稿では,これら2つの決定を同時に行うために,強化学習を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T08:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。