論文の概要: Towards Precise Action Spotting: Addressing Temporal Misalignment in Labels with Dynamic Label Assignment
- arxiv url: http://arxiv.org/abs/2504.00149v1
- Date: Mon, 31 Mar 2025 18:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:42.570095
- Title: Towards Precise Action Spotting: Addressing Temporal Misalignment in Labels with Dynamic Label Assignment
- Title(参考訳): 正確なアクションスポッティングに向けて:動的ラベルアサインメントを用いたラベルの時間的ミスアライメントに対処する
- Authors: Masato Tamura,
- Abstract要約: 本研究では,トレーニング中の地中行動時間から時間的オフセットを予測できる新しい動的ラベル割り当て戦略を提案する。
本手法は、特に、事象が視覚的に区別され、ラベルの時間的ずれが一般的である状況において、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 3.75292409381511
- License:
- Abstract: Precise action spotting has attracted considerable attention due to its promising applications. While existing methods achieve substantial performance by employing well-designed model architecture, they overlook a significant challenge: the temporal misalignment inherent in ground-truth labels. This misalignment arises when frames labeled as containing events do not align accurately with the actual event times, often as a result of human annotation errors or the inherent difficulties in precisely identifying event boundaries across neighboring frames. To tackle this issue, we propose a novel dynamic label assignment strategy that allows predictions to have temporal offsets from ground-truth action times during training, ensuring consistent event spotting. Our method extends the concept of minimum-cost matching, which is utilized in the spatial domain for object detection, to the temporal domain. By calculating matching costs based on predicted action class scores and temporal offsets, our method dynamically assigns labels to the most likely predictions, even when the predicted times of these predictions deviate from ground-truth times, alleviating the negative effects of temporal misalignment in labels. We conduct extensive experiments and demonstrate that our method achieves state-of-the-art performance, particularly in conditions where events are visually distinct and temporal misalignment in labels is common.
- Abstract(参考訳): 精密なアクションスポッティングはその有望な応用のためにかなりの注目を集めている。
既存の手法は、よく設計されたモデルアーキテクチャを用いることで、かなりのパフォーマンスを達成するが、彼らは重要な課題を見落としている。
イベントを含むとラベル付けされたフレームが実際のイベント時間と正確に一致しない場合、しばしば人間のアノテーションエラーや、近隣のフレーム間のイベント境界を正確に識別する固有の困難が生じる。
この問題に対処するために,トレーニング中の地道行動時間から時間的オフセットを予測し,一貫したイベントスポッティングを確実にする動的ラベル割り当て戦略を提案する。
提案手法は,空間領域でオブジェクト検出に使用される最小コストマッチングの概念を時間領域に拡張する。
提案手法は,予測行動クラススコアと時間オフセットに基づいてマッチングコストを計算することにより,予測された予測時間の地上時間から逸脱した場合でもラベルを最も確率の高い予測に動的に割り当て,ラベルの時間的ずれによる負の効果を緩和する。
我々は、特に、事象が視覚的に区別され、ラベルの時間的ずれが一般的である状況において、その手法が最先端のパフォーマンスを達成することを実証し、広範な実験を行った。
関連論文リスト
- Event Detection via Probability Density Function Regression [0.0]
本研究では、時間間隔定義イベント検出問題を再編成する一般化回帰に基づく手法を提案する。
コンピュータビジョンからの熱マップ回帰技術にインスパイアされた本手法は,事象発生時の確率密度を予測することを目的としている。
回帰に基づくアプローチは,様々な最先端のベースラインネットワークやデータセットのセグメンテーションに基づく手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-23T01:58:56Z) - Self-Supervised Class-Agnostic Motion Prediction with Spatial and Temporal Consistency Regularizations [53.797896854533384]
クラスに依存しない動き予測法は点雲全体の動きを直接予測する。
既存のほとんどのメソッドは、完全に教師付き学習に依存しているが、ポイントクラウドデータの手作業によるラベル付けは、手間と時間を要する。
3つの簡単な空間的・時間的正則化損失を導入し,自己指導型学習プロセスの効率化を図る。
論文 参考訳(メタデータ) (2024-03-20T02:58:45Z) - Event Detection in Time Series: Universal Deep Learning Approach [0.0]
時系列におけるイベント検出は、不均衡なデータセット、まれなイベント、時間間隔定義イベントの頻度のため、困難なタスクである。
本稿では,教師付き回帰に基づく深層学習手法を提案する。
当社のアプローチは、まれなイベントや不均衡なデータセットを含む、統合されたフレームワーク内で、さまざまな種類のイベントを効果的に処理できる。
論文 参考訳(メタデータ) (2023-11-27T09:33:56Z) - Domain Adaptive Object Detection via Balancing Between Self-Training and
Adversarial Learning [19.81071116581342]
深層学習に基づく物体検出器は、対象と背景に大きなバリエーションを持つ新しい対象領域に一般化するのに苦労する。
現在の手法では、画像またはインスタンスレベルの対角的特徴アライメントを使用してドメインをアライメントする。
本稿では,モデルの予測不確実性を利用して,対向的特徴アライメントとクラスレベルのアライメントの適切なバランスを打つことを提案する。
論文 参考訳(メタデータ) (2023-11-08T16:40:53Z) - Improving Weakly Supervised Temporal Action Localization by Bridging
Train-Test Gap in Pseudo Labels [38.35756338815097]
効果的な解法として機能する擬似ラベル法は近年広く研究されている。
既存の方法は、トレーニング中に擬似ラベルを生成し、異なるパイプラインや設定下でのテスト中に予測する。
予測動作境界から高品質な擬似ラベルを生成することを提案する。
論文 参考訳(メタデータ) (2023-04-17T03:47:41Z) - Spatio-temporal predictive tasks for abnormal event detection in videos [60.02503434201552]
オブジェクトレベルの正規化パターンを学習するための制約付きプレテキストタスクを提案する。
我々のアプローチは、ダウンスケールの視覚的クエリとそれに対応する正常な外観と運動特性のマッピングを学習することである。
いくつかのベンチマークデータセットの実験では、異常の局所化と追跡のためのアプローチの有効性が示されている。
論文 参考訳(メタデータ) (2022-10-27T19:45:12Z) - Semi-supervised Object Detection via Virtual Category Learning [68.26956850996976]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
具体的には、各混乱したサンプルに仮想圏(VC)が割り当てられる。
トレーニングサンプルと仮想カテゴリの間の埋め込み距離を指定することに起因する。
論文 参考訳(メタデータ) (2022-07-07T16:59:53Z) - Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。
無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。
フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文 参考訳(メタデータ) (2022-06-26T16:45:56Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Self-supervised Pretraining with Classification Labels for Temporal
Activity Detection [54.366236719520565]
時間的アクティビティ検出は、1フレーム当たりのアクティビティクラスを予測することを目的としている。
検出に必要なフレームレベルのアノテーションが高価なため、検出データセットの規模は限られている。
本研究では,分類ラベルを利用した自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:28Z) - Synergizing between Self-Training and Adversarial Learning for Domain
Adaptive Object Detection [11.091890625685298]
本研究では、物体の外観、視点、背景の顕著な変化を示す未確認領域に、訓練対象検出器を適応させることについて検討する。
本稿では,モデル予測の不確実性を利用して,対向的特徴アライメントとクラスレベルのアライメントの適切なバランスを打つことを提案する。
論文 参考訳(メタデータ) (2021-10-01T08:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。