論文の概要: Long-Tail Temporal Action Segmentation with Group-wise Temporal Logit Adjustment
- arxiv url: http://arxiv.org/abs/2408.09919v1
- Date: Mon, 19 Aug 2024 11:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:35:10.991921
- Title: Long-Tail Temporal Action Segmentation with Group-wise Temporal Logit Adjustment
- Title(参考訳): Group-wise Temporal Logit Adjustment を用いた長期的時間的行動分割
- Authors: Zhanzhong Pang, Fadime Sener, Shrinivas Ramasubramanian, Angela Yao,
- Abstract要約: State-of-the-the-art temporal action segmentation method overlook the long tail and fail not recognize tail action。
本研究はグループワイドな時間的ロジット調整(G-TLA)フレームワークを提案し,グループワイドなソフトマックスの定式化と,グループワイドなロジット調整のためのアクションオーダリングを組み合わせた。
- 参考スコア(独自算出の注目度): 35.710284726160815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedural activity videos often exhibit a long-tailed action distribution due to varying action frequencies and durations. However, state-of-the-art temporal action segmentation methods overlook the long tail and fail to recognize tail actions. Existing long-tail methods make class-independent assumptions and struggle to identify tail classes when applied to temporal segmentation frameworks. This work proposes a novel group-wise temporal logit adjustment~(G-TLA) framework that combines a group-wise softmax formulation while leveraging activity information and action ordering for logit adjustment. The proposed framework significantly improves in segmenting tail actions without any performance loss on head actions.
- Abstract(参考訳): プロシージャのアクティビティビデオは、アクション頻度と持続時間が異なるため、長い尾のアクション分布を示すことが多い。
しかし、最先端の時間的アクションセグメンテーション手法は、長い尾を見落とし、尾のアクションを認識するのに失敗する。
既存のロングテールメソッドは、時間的セグメンテーションフレームワークに適用した場合、クラスに依存しない仮定とテールクラスを特定するのに苦労する。
本研究はグループワイドの時間的ロジット調整(G-TLA)フレームワークを提案する。
提案フレームワークは,ヘッドアクションの性能低下を伴わずにセグメンテーションテールアクションを大幅に改善する。
関連論文リスト
- Activity Grammars for Temporal Action Segmentation [71.03141719666972]
時間的アクションセグメンテーションは、トリミングされていないアクティビティビデオを一連のアクションセグメンテーションに変換することを目的としている。
本稿では,時間的行動セグメンテーションのための神経予測を導くための効果的な活動文法を提案する。
実験の結果,提案手法は時間的動作のセグメンテーションを性能と解釈性の両方の観点から著しく改善することが示された。
論文 参考訳(メタデータ) (2023-12-07T12:45:33Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Temporal Segment Transformer for Action Segmentation [54.25103250496069]
本稿では,テキスト・セグメント・トランスフォーマ (textittemporal segment transformer) と呼ぶアテンション・ベース・アプローチを提案する。
主な考え方は、セグメントとフレームの間の注意を用いてセグメント表現を識別することであり、またセグメント間の時間的相関を捉えるためにセグメント間注意を用いる。
このアーキテクチャは,50Salads,GTEA,Breakfastのベンチマークにおいて,最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-02-25T13:05:57Z) - Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。
無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。
フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文 参考訳(メタデータ) (2022-06-26T16:45:56Z) - Action Shuffle Alternating Learning for Unsupervised Action Segmentation [38.32743770719661]
我々は、正および負のアクションシーケンスを認識するためにRNNを訓練し、RNNの隠蔽層を新しいアクションレベルの特徴埋め込みとして捉えた。
動作の監視ができないため、アクション長を明示的にモデル化したHMMを指定し、ViterbiアルゴリズムによるMAPアクションセグメンテーションを推論する。
結果として生じるアクションセグメンテーションは、アクションレベルの機能埋め込みとHMMの更新を推定するための疑似根拠の真実として使用されます。
論文 参考訳(メタデータ) (2021-04-05T18:58:57Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。