論文の概要: Cross-Enhancement Transformer for Action Segmentation
- arxiv url: http://arxiv.org/abs/2205.09445v1
- Date: Thu, 19 May 2022 10:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:00:25.374852
- Title: Cross-Enhancement Transformer for Action Segmentation
- Title(参考訳): 動作セグメンテーションのためのクロスエンハンスメントトランス
- Authors: Jiahui Wang, Zhenyou Wang, Shanna Zhuang, Hui Wang
- Abstract要約: 本論文では,クロスエンハンスメントトランスと呼ばれる新しいエンコーダデコーダ構造を提案する。
本手法は,対話型自己認識機構を用いた時間構造表現の効果的な学習である。
さらに,過分割誤差を罰するトレーニングプロセスを強化するために,新たな損失関数を提案する。
- 参考スコア(独自算出の注目度): 5.752561578852787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal convolutions have been the paradigm of choice in action
segmentation, which enhances long-term receptive fields by increasing
convolution layers. However, high layers cause the loss of local information
necessary for frame recognition. To solve the above problem, a novel
encoder-decoder structure is proposed in this paper, called Cross-Enhancement
Transformer. Our approach can be effective learning of temporal structure
representation with interactive self-attention mechanism. Concatenated each
layer convolutional feature maps in encoder with a set of features in decoder
produced via self-attention. Therefore, local and global information are used
in a series of frame actions simultaneously. In addition, a new loss function
is proposed to enhance the training process that penalizes over-segmentation
errors. Experiments show that our framework performs state-of-the-art on three
challenging datasets: 50Salads, Georgia Tech Egocentric Activities and the
Breakfast dataset.
- Abstract(参考訳): 時間的畳み込み(temporal convolution)は、畳み込み層を増やすことによって長期的な受容野を強化するアクションセグメンテーションのパラダイムである。
しかし、高い層はフレーム認識に必要なローカル情報の損失を引き起こす。
この問題を解決するために, クロスエンハンストランスと呼ばれる新しいエンコーダ・デコーダ構造を提案する。
本手法は,対話型自己認識機構を用いた時間構造表現の効果的な学習である。
エンコーダ内の各レイヤの畳み込み特徴マップと、自己アテンションによって生成されたデコーダの機能セットを連結する。
したがって、一連のフレームアクションで同時にローカル情報とグローバル情報を使用する。
さらに,過分割誤差を罰するトレーニングプロセスを強化するために,新たな損失関数を提案する。
実験によると、我々のフレームワークは、50Salads、ジョージア工科大学のEgocentric Activity、Breakfastの3つの挑戦的なデータセットに対して最先端の処理を行っている。
関連論文リスト
- Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Generative-Contrastive Learning for Self-Supervised Latent
Representations of 3D Shapes from Multi-Modal Euclidean Input [44.10761155817833]
本稿では,3次元形状の潜在表現を学習するための,生成型とコントラスト型を組み合わせたニューラルアーキテクチャを提案する。
このアーキテクチャでは、2つのエンコーダブランチをボクセルグリッドと、同じ形状のマルチビューイメージに使用している。
論文 参考訳(メタデータ) (2023-01-11T18:14:24Z) - Feedback Chain Network For Hippocampus Segmentation [59.74305660815117]
海馬セグメンテーションタスクのための階層型フィードバックチェーンネットワークを提案する。
提案手法は,3つの公開データセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-15T04:32:10Z) - Defect Transformer: An Efficient Hybrid Transformer Architecture for
Surface Defect Detection [2.0999222360659604]
表面欠陥検出のための効率的なハイブリッドトランスアーキテクチャであるDefect Transformer (DefT)を提案する。
DefTはCNNとTransformerを統一モデルに組み込んで、局所的および非局所的関係を協調的にキャプチャする。
3つのデータセットの実験は、他のCNNやトランスフォーマーベースのネットワークと比較して、我々の手法の優位性と効率性を実証している。
論文 参考訳(メタデータ) (2022-07-17T23:37:48Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。