論文の概要: Alleviating Over-segmentation Errors by Detecting Action Boundaries
- arxiv url: http://arxiv.org/abs/2007.06866v1
- Date: Tue, 14 Jul 2020 07:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:41:52.402440
- Title: Alleviating Over-segmentation Errors by Detecting Action Boundaries
- Title(参考訳): 動作境界検出による過分割誤りの軽減
- Authors: Yuchi Ishikawa, Seito Kasai, Yoshimitsu Aoki, Hirokatsu Kataoka
- Abstract要約: 本稿では、時間的行動分節タスク、すなわち行動分節フレームワーク(ASRF)のための効果的なフレームワークを提案する。
我々のフレームワークは3つの挑戦的なデータセット上で最先端の手法より優れています。
- 参考スコア(独自算出の注目度): 14.089070456051488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an effective framework for the temporal action segmentation task,
namely an Action Segment Refinement Framework (ASRF). Our model architecture
consists of a long-term feature extractor and two branches: the Action
Segmentation Branch (ASB) and the Boundary Regression Branch (BRB). The
long-term feature extractor provides shared features for the two branches with
a wide temporal receptive field. The ASB classifies video frames with action
classes, while the BRB regresses the action boundary probabilities. The action
boundaries predicted by the BRB refine the output from the ASB, which results
in a significant performance improvement. Our contributions are three-fold: (i)
We propose a framework for temporal action segmentation, the ASRF, which
divides temporal action segmentation into frame-wise action classification and
action boundary regression. Our framework refines frame-level hypotheses of
action classes using predicted action boundaries. (ii) We propose a loss
function for smoothing the transition of action probabilities, and analyze
combinations of various loss functions for temporal action segmentation. (iii)
Our framework outperforms state-of-the-art methods on three challenging
datasets, offering an improvement of up to 13.7% in terms of segmental edit
distance and up to 16.1% in terms of segmental F1 score. Our code will be
publicly available soon.
- Abstract(参考訳): 本稿では,時間的行動セグメント化作業,すなわちアクションセグメンテーション・リファインメント・フレームワーク(ASRF)の効果的なフレームワークを提案する。
我々のモデルアーキテクチャは、長期的特徴抽出器と、アクションセグメンテーションブランチ(ASB)と境界回帰ブランチ(BRB)の2つのブランチから構成される。
長期特徴抽出器は、広時間受容野を有する2つの枝に共通特徴を提供する。
ASBはビデオフレームをアクションクラスに分類し、BRBはアクション境界確率を回帰する。
BRBが予測した動作境界はASBの出力を洗練し、性能が大幅に向上した。
私たちの貢献は3倍です。
i) 時間的行動セグメント化のためのフレームワークであるASRFを提案し, 時間的行動セグメント化をフレーム単位の行動分類と行動境界回帰に分割する。
我々のフレームワークは、予測されたアクション境界を用いてアクションクラスのフレームレベル仮説を洗練する。
二) 行動確率の遷移を円滑にするための損失関数を提案し, 時間的行動区分のための各種損失関数の組み合わせを分析する。
(iii)本フレームワークは,3つの難題データセットにおいて最先端手法を上回り,セグメント編集距離で最大13.7%,セグメントf1スコアで最大16.1%の改善を提供する。
私たちのコードはまもなく公開されます。
関連論文リスト
- Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - BIT: Bi-Level Temporal Modeling for Efficient Supervised Action
Segmentation [34.88225099758585]
教師付きアクションセグメンテーションは、ビデオを重複しないセグメントに分割することを目的としており、それぞれが異なるアクションを表す。
最近の研究は、高い計算コストを被るフレームレベルでの時間的モデリングを行うためにトランスフォーマーを適用している。
本稿では,アクションセグメントを表現するために明示的なアクショントークンを学習する,BIレベルの効率的な時間モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-28T20:59:15Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Temporal Segment Transformer for Action Segmentation [54.25103250496069]
本稿では,テキスト・セグメント・トランスフォーマ (textittemporal segment transformer) と呼ぶアテンション・ベース・アプローチを提案する。
主な考え方は、セグメントとフレームの間の注意を用いてセグメント表現を識別することであり、またセグメント間の時間的相関を捉えるためにセグメント間注意を用いる。
このアーキテクチャは,50Salads,GTEA,Breakfastのベンチマークにおいて,最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-02-25T13:05:57Z) - Estimation of Reliable Proposal Quality for Temporal Action Detection [71.5989469643732]
提案手法では,時間的視点と地域的視点を同時に把握し,信頼性の高い提案品質を取得することによって2つの課題を整合させる手法を提案する。
バウンダリ評価モジュール (BEM) は, 境界品質を推定するために, 局所的な外観と動きの進化に焦点を当てた設計である。
地域の観点からは,提案する特徴表現に対して,新しい効率的なサンプリング手法を用いた領域評価モジュール(REM)を導入する。
論文 参考訳(メタデータ) (2022-04-25T14:33:49Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。