論文の概要: ASFormer: Transformer for Action Segmentation
- arxiv url: http://arxiv.org/abs/2110.08568v1
- Date: Sat, 16 Oct 2021 13:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:35:17.080607
- Title: ASFormer: Transformer for Action Segmentation
- Title(参考訳): ASFormer: アクションセグメンテーションのためのトランスフォーマー
- Authors: Fangqiu Yi and Hongyu Wen and Tingting Jiang
- Abstract要約: 本稿では,アクションセグメンテーションタスクのための効率的なトランスフォーマーベースモデルASFormerを提案する。
信頼された範囲内で仮説空間を制約し、アクションセグメンテーションタスクが小さなトレーニングセットで適切なターゲット関数を学習するのに有益である。
我々は、長い入力シーケンスを効率的に処理する事前定義された階層表現パターンを適用した。
- 参考スコア(独自算出の注目度): 9.509416095106493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithms for the action segmentation task typically use temporal models to
predict what action is occurring at each frame for a minute-long daily
activity. Recent studies have shown the potential of Transformer in modeling
the relations among elements in sequential data. However, there are several
major concerns when directly applying the Transformer to the action
segmentation task, such as the lack of inductive biases with small training
sets, the deficit in processing long input sequence, and the limitation of the
decoder architecture to utilize temporal relations among multiple action
segments to refine the initial predictions. To address these concerns, we
design an efficient Transformer-based model for action segmentation task, named
ASFormer, with three distinctive characteristics: (i) We explicitly bring in
the local connectivity inductive priors because of the high locality of
features. It constrains the hypothesis space within a reliable scope, and is
beneficial for the action segmentation task to learn a proper target function
with small training sets. (ii) We apply a pre-defined hierarchical
representation pattern that efficiently handles long input sequences. (iii) We
carefully design the decoder to refine the initial predictions from the
encoder. Extensive experiments on three public datasets demonstrate that
effectiveness of our methods. Code is available at
\url{https://github.com/ChinaYi/ASFormer}.
- Abstract(参考訳): アクションセグメンテーションタスクのアルゴリズムは通常、時間モデルを使用して各フレームで発生しているアクションを1分間の日々の活動で予測する。
近年の研究では、逐次データ中の要素間の関係をモデル化するトランスフォーマーの可能性を示している。
しかしながら、小さなトレーニングセットによる帰納バイアスの欠如、長い入力シーケンスの処理の欠如、複数のアクションセグメント間の時間的関係を利用して初期予測を洗練するためのデコーダアーキテクチャの制限など、アクションセグメンテーションタスクにトランスフォーマーを直接適用する場合、いくつかの大きな懸念がある。
これらの問題に対処するために,ASFormerというアクションセグメンテーションタスクのための効率的なトランスフォーマーベースモデルを設計した。
(i)特徴の局所性が高いため、局所接続インダクティブプリエントを明示的に導入している。
信頼された範囲内で仮説空間を制約し、アクションセグメンテーションタスクが小さなトレーニングセットで適切なターゲット関数を学習するのに有益である。
(ii)長い入力列を効率的に扱う事前定義された階層表現パターンを適用する。
(iii)エンコーダからの初期予測を洗練するためにデコーダを慎重に設計する。
3つの公開データセットに対する大規模な実験により,本手法の有効性が示された。
コードは \url{https://github.com/ChinaYi/ASFormer} で入手できる。
関連論文リスト
- An Effective-Efficient Approach for Dense Multi-Label Action Detection [23.100602876056165]
i)時間的依存関係と(ii)共起行動関係を同時に学習する必要がある。
近年のアプローチは階層型トランスフォーマーネットワークによるマルチスケール特徴抽出による時間情報のモデル化である。
我々はこれを階層設計における複数のサブサンプリングプロセスと組み合わせることで、位置情報のさらなる喪失につながると論じている。
論文 参考訳(メタデータ) (2024-06-10T11:33:34Z) - Activity Grammars for Temporal Action Segmentation [71.03141719666972]
時間的アクションセグメンテーションは、トリミングされていないアクティビティビデオを一連のアクションセグメンテーションに変換することを目的としている。
本稿では,時間的行動セグメンテーションのための神経予測を導くための効果的な活動文法を提案する。
実験の結果,提案手法は時間的動作のセグメンテーションを性能と解釈性の両方の観点から著しく改善することが示された。
論文 参考訳(メタデータ) (2023-12-07T12:45:33Z) - BIT: Bi-Level Temporal Modeling for Efficient Supervised Action
Segmentation [34.88225099758585]
教師付きアクションセグメンテーションは、ビデオを重複しないセグメントに分割することを目的としており、それぞれが異なるアクションを表す。
最近の研究は、高い計算コストを被るフレームレベルでの時間的モデリングを行うためにトランスフォーマーを適用している。
本稿では,アクションセグメントを表現するために明示的なアクショントークンを学習する,BIレベルの効率的な時間モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-28T20:59:15Z) - Semi-Structured Object Sequence Encoders [9.257633944317735]
本稿では,半構造化オブジェクト列に対する構造認識型入力表現の開発に焦点をあてる。
このタイプのデータは、時間とともにキーと値のペアの一連の配列として表されることが多い。
本稿では,まず各キーを独立に考慮し,時間とともに値の表現を符号化する2部手法を提案する。
論文 参考訳(メタデータ) (2023-01-03T09:19:41Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Generating Sparse Counterfactual Explanations For Multivariate Time
Series [0.5161531917413706]
多変量時系列に対するSPARse Counterfactual Explanationsを生成するGANアーキテクチャを提案する。
提案手法は, トラジェクトリの類似性, 疎性, 滑らか性の観点から, 対実損失関数を正規化する。
我々は,実世界の人間の動作データセットと合成時系列解釈可能性ベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-06-02T08:47:06Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。