論文の概要: Temporal Segment Transformer for Action Segmentation
- arxiv url: http://arxiv.org/abs/2302.13074v1
- Date: Sat, 25 Feb 2023 13:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 19:06:45.051531
- Title: Temporal Segment Transformer for Action Segmentation
- Title(参考訳): 動作セグメンテーションのためのテンポラリセグメントトランス
- Authors: Zhichao Liu and Leshan Wang and Desen Zhou and Jian Wang and Songyang
Zhang and Yang Bai and Errui Ding and Rui Fan
- Abstract要約: 本稿では,テキスト・セグメント・トランスフォーマ (textittemporal segment transformer) と呼ぶアテンション・ベース・アプローチを提案する。
主な考え方は、セグメントとフレームの間の注意を用いてセグメント表現を識別することであり、またセグメント間の時間的相関を捉えるためにセグメント間注意を用いる。
このアーキテクチャは,50Salads,GTEA,Breakfastのベンチマークにおいて,最先端の精度を実現していることを示す。
- 参考スコア(独自算出の注目度): 54.25103250496069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing human actions from untrimmed videos is an important task in
activity understanding, and poses unique challenges in modeling long-range
temporal relations. Recent works adopt a predict-and-refine strategy which
converts an initial prediction to action segments for global context modeling.
However, the generated segment representations are often noisy and exhibit
inaccurate segment boundaries, over-segmentation and other problems. To deal
with these issues, we propose an attention based approach which we call
\textit{temporal segment transformer}, for joint segment relation modeling and
denoising. The main idea is to denoise segment representations using attention
between segment and frame representations, and also use inter-segment attention
to capture temporal correlations between segments. The refined segment
representations are used to predict action labels and adjust segment
boundaries, and a final action segmentation is produced based on voting from
segment masks. We show that this novel architecture achieves state-of-the-art
accuracy on the popular 50Salads, GTEA and Breakfast benchmarks. We also
conduct extensive ablations to demonstrate the effectiveness of different
components of our design.
- Abstract(参考訳): 非トリミングビデオからヒューマンアクションを認識することは、アクティビティ理解において重要なタスクであり、長距離時間関係のモデリングにおいてユニークな課題となる。
近年の研究では,グローバルコンテキストモデリングにおいて,初期予測をアクションセグメントに変換する予測・再定義戦略が採用されている。
しかし、生成されたセグメント表現はしばしば騒がしく、不正確なセグメント境界、過剰セグメント、その他の問題を示す。
そこで本稿では,これらの問題に対処するために,ジョイントセグメント関係モデリングとデノイジングのための注意に基づく手法である \textit{temporal segment transformer} を提案する。
主な考え方は、セグメントとフレームの間の注意を用いてセグメント表現を識別し、セグメント間の時間的相関を捉えるためにセグメント間注意を用いることである。
洗練されたセグメント表現は、アクションラベルの予測とセグメント境界の調整に使用され、セグメントマスクからの投票に基づいて最終アクションセグメンテーションが生成される。
本稿では,このアーキテクチャが50Salads, GTEA, Breakfastベンチマークの最先端の精度を実現することを示す。
また, 設計の異なる成分の有効性を示すため, 広範囲のアブレーションを行った。
関連論文リスト
- Image Segmentation in Foundation Model Era: A Survey [99.19456390358211]
イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。
本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。
現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
論文 参考訳(メタデータ) (2024-08-23T10:07:59Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - RefineVIS: Video Instance Segmentation with Temporal Attention
Refinement [23.720986152136785]
RefineVISは、既製のフレームレベルのイメージインスタンスセグメンテーションモデルの上に、2つの別々の表現を学習する。
TAR(Temporal Attention Refinement)モジュールは、時間的関係を利用して識別的セグメンテーション表現を学習する。
YouTube-VIS 2019 (64.4 AP)、Youtube-VIS 2021 (61.4 AP)、OVIS (46.1 AP)データセットで最先端のビデオインスタンスのセグメンテーション精度を達成する。
論文 参考訳(メタデータ) (2023-06-07T20:45:15Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Monotonic segmental attention for automatic speech recognition [45.036436385637295]
本稿では,音声認識のための新しいセグメントアテンションモデルを提案する。
グローバルアテンションとセグメントアテンションモデリングの違いを比較した。
分節モデルは最大数分間の長い列に対してはるかに良く一般化する。
論文 参考訳(メタデータ) (2022-10-26T14:21:23Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - Self-supervised Sparse to Dense Motion Segmentation [13.888344214818737]
単一ビデオフレームからスパース動作セグメントの密度化を学習するための自己教師付き手法を提案する。
FBMS59 と DAVIS16 でよく知られた動作セグメンテーションデータセットについて検討した。
論文 参考訳(メタデータ) (2020-08-18T11:40:18Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - Motion-supervised Co-Part Segmentation [88.40393225577088]
本稿では,コパートセグメンテーションのための自己教師型ディープラーニング手法を提案する。
提案手法は,映像から推定される動き情報を有効活用して意味のある物体の発見を可能にする。
論文 参考訳(メタデータ) (2020-04-07T09:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。