論文の概要: Cost-Sensitive Learning for Long-Tailed Temporal Action Segmentation
- arxiv url: http://arxiv.org/abs/2503.18358v1
- Date: Mon, 24 Mar 2025 05:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:13.163993
- Title: Cost-Sensitive Learning for Long-Tailed Temporal Action Segmentation
- Title(参考訳): 長期的時間的行動セグメンテーションのためのコスト感性学習
- Authors: Zhanzhong Pang, Fadime Sener, Shrinivas Ramasubramanian, Angela Yao,
- Abstract要約: プロシージャビデオにおける時間的アクションセグメンテーションは、フレームをアクションクラスに密にラベル付けすることを目的としている。
本研究では,2段階の学習バイアスを,階層的不均衡から派生し,遷移の変動から生じる遷移レベルのバイアスを同定する。
緩和策として、両バイアスを緩和する制約付き最適化問題を導入する。
- 参考スコア(独自算出の注目度): 35.710284726160815
- License:
- Abstract: Temporal action segmentation in untrimmed procedural videos aims to densely label frames into action classes. These videos inherently exhibit long-tailed distributions, where actions vary widely in frequency and duration. In temporal action segmentation approaches, we identified a bi-level learning bias. This bias encompasses (1) a class-level bias, stemming from class imbalance favoring head classes, and (2) a transition-level bias arising from variations in transitions, prioritizing commonly observed transitions. As a remedy, we introduce a constrained optimization problem to alleviate both biases. We define learning states for action classes and their associated transitions and integrate them into the optimization process. We propose a novel cost-sensitive loss function formulated as a weighted cross-entropy loss, with weights adaptively adjusted based on the learning state of actions and their transitions. Experiments on three challenging temporal segmentation benchmarks and various frameworks demonstrate the effectiveness of our approach, resulting in significant improvements in both per-class frame-wise and segment-wise performance.
- Abstract(参考訳): 非トリミングプロシージャビデオにおける時間的アクションセグメンテーションは、フレームをアクションクラスに密にラベル付けすることを目的としている。
これらのビデオは本質的に長い尾の分布を示しており、行動の頻度と持続時間は大きく異なる。
時間的行動セグメンテーションアプローチでは、二段階学習バイアスを特定した。
このバイアスは(1)クラスレベルのバイアス、(2)クラス間の遷移の変動から生じる遷移レベルのバイアス、そして(2)一般的に観察される遷移を優先順位付けする。
緩和策として、両バイアスを緩和する制約付き最適化問題を導入する。
我々は、アクションクラスとその関連する遷移の学習状態を定義し、それらを最適化プロセスに統合する。
本稿では,重み付きクロスエントロピー損失として定式化された新たなコスト感受性損失関数を提案する。
3つの挑戦的時間分割ベンチマークと様々なフレームワークの実験により、我々のアプローチの有効性が示され、クラスごとのフレームワイドとセグメントワイドの両方のパフォーマンスが大幅に改善された。
関連論文リスト
- Efficient and Effective Weakly-Supervised Action Segmentation via Action-Transition-Aware Boundary Alignment [33.74853437611066]
弱教師付きアクションセグメンテーションは、長いビデオを複数のアクションセグメンテーションに分割する学習である。
既存の手法の多くは、すべてのフレームと転写文間のシリアルアライメントによるトレーニングのために擬似セグメンテーションを推論する必要がある。
本稿では,雑音境界を効果的かつ効果的にフィルタリングし,遷移を検出する新しい行動遷移対応境界アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T08:39:44Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z) - On Evaluating Weakly Supervised Action Segmentation Methods [79.42955857919497]
本研究は、弱い教師付き行動セグメント化アプローチの使用と評価の2つの側面に焦点を当てる。
それぞれの手法をBreakfastデータセット上で5回トレーニングし、平均および標準偏差を提供する。
実験の結果,これらの反復に対する標準偏差は1~2.5%であり,異なるアプローチの比較に大きく影響していることがわかった。
論文 参考訳(メタデータ) (2020-05-19T20:30:31Z) - Bottom-Up Temporal Action Localization with Mutual Regularization [107.39785866001868]
TALの最先端の解決策は、3つの行動指示相のフレームレベルの確率を評価することである。
学習手順を相互に規則化するための2つの規則化用語を導入する。
実験は2つの人気のTALデータセット、THUMOS14とActivityNet1.3で行われている。
論文 参考訳(メタデータ) (2020-02-18T03:59:13Z) - Weakly Supervised Temporal Action Localization Using Deep Metric
Learning [12.49814373580862]
本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
論文 参考訳(メタデータ) (2020-01-21T22:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。