論文の概要: Technical Report: Masked Skeleton Sequence Modeling for Learning Larval Zebrafish Behavior Latent Embeddings
- arxiv url: http://arxiv.org/abs/2403.15693v1
- Date: Sat, 23 Mar 2024 02:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:32:08.109012
- Title: Technical Report: Masked Skeleton Sequence Modeling for Learning Larval Zebrafish Behavior Latent Embeddings
- Title(参考訳): 若年ゼブラフィッシュの潜伏潜伏行動学習のための仮面骨格モデル
- Authors: Lanxin Xu, Shuo Wang,
- Abstract要約: 幼魚ゼブラフィッシュの行動から潜伏埋め込みを抽出する自己教師型学習法を提案する。
スイミングゼブラフィッシュの骨格配列について、SSTFormer(Sequence Space-Temporal Transformer)の先駆的なトランスフォーマーCNNアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 5.922172844641853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we introduce a novel self-supervised learning method for extracting latent embeddings from behaviors of larval zebrafish. Drawing inspiration from Masked Modeling techniquesutilized in image processing with Masked Autoencoders (MAE) \cite{he2022masked} and in natural language processing with Generative Pre-trained Transformer (GPT) \cite{radford2018improving}, we treat behavior sequences as a blend of images and language. For the skeletal sequences of swimming zebrafish, we propose a pioneering Transformer-CNN architecture, the Sequence Spatial-Temporal Transformer (SSTFormer), designed to capture the inter-frame correlation of different joints. This correlation is particularly valuable, as it reflects the coordinated movement of various parts of the fish body across adjacent frames. To handle the high frame rate, we segment the skeleton sequence into distinct time slices, analogous to "words" in a sentence, and employ self-attention transformer layers to encode the consecutive frames within each slice, capturing the spatial correlation among different joints. Furthermore, we incorporate a CNN-based attention module to enhance the representations outputted by the transformer layers. Lastly, we introduce a temporal feature aggregation operation between time slices to improve the discrimination of similar behaviors.
- Abstract(参考訳): 本稿では,幼魚ゼブラフィッシュの行動から潜伏埋め込みを抽出する自己教師型学習手法を提案する。
Masked Autoencoders (MAE) \cite{he2022masked} による画像処理や,Generative Pre-trained Transformer (GPT) \cite{radford2018improving} による自然言語処理に応用したMasked Modeling のインスピレーションを得て,動作シーケンスを画像と言語のブレンドとして扱う。
スイミングゼブラフィッシュの骨格配列について、異なる関節のフレーム間相関を捉えるために、SSTFormer (Sequence Spatial-Temporal Transformer) という先駆的なTransformer-CNNアーキテクチャを提案する。
この相関関係は、隣接するフレームにまたがる魚体の様々な部位の協調移動を反映しているため、特に貴重である。
高フレームレートに対処するため,文中の「単語」に類似した時間スライスにスケルトン配列を分割し,各スライス内の連続フレームを符号化するために自己アテンショントランスフォーマー層を用いて,異なる関節間の空間的相関を捉える。
さらに、CNNベースのアテンションモジュールを組み込んで、変換器層によって出力される表現を強化する。
最後に、時間スライス間の時間的特徴集約操作を導入し、類似した行動の識別を改善する。
関連論文リスト
- Leveraging 2D Information for Long-term Time Series Forecasting with Vanilla Transformers [55.475142494272724]
時系列予測は、様々な領域における複雑な力学の理解と予測に不可欠である。
GridTSTは、革新的な多方向性の注意を用いた2つのアプローチの利点を組み合わせたモデルである。
このモデルは、さまざまな現実世界のデータセットに対して、常に最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-05-22T16:41:21Z) - Co-Speech Gesture Detection through Multi-Phase Sequence Labeling [3.924524252255593]
本稿では,タスクをマルチフェーズシーケンスラベリング問題として再編成する新しいフレームワークを提案する。
本稿では,タスク指向の対面対話における多様な音声ジェスチャーのデータセットについて検討する。
論文 参考訳(メタデータ) (2023-08-21T12:27:18Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - Temporal-Viewpoint Transportation Plan for Skeletal Few-shot Action
Recognition [38.27785891922479]
Joint tEmporalとcAmera viewpoiNt alIgnmEntによる3Dスケルトンに基づく動作認識のためのFew-shot Learning Pipeline
論文 参考訳(メタデータ) (2022-10-30T11:46:38Z) - Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in
the Wild [19.5702895176141]
本稿では,各フレームモデル内の異種特徴を抽出する手法を提案する。
我々はCNNを用いて各フレームを視覚的特徴系列に変換する。
実験の結果,本手法は空間的および時間的依存を効果的に活用できることが示された。
論文 参考訳(メタデータ) (2022-05-10T08:47:15Z) - Spatio-Temporal Tuples Transformer for Skeleton-Based Action Recognition [8.905895607185135]
変圧器は重要な関節の相関をモデル化する大きな可能性を示す。
既存のTransformerベースの手法では、フレーム間の異なる関節の相関を捉えることはできない。
連続するフレームにおける異なる関節の関係を捉えるために,時間認識モジュールを提案する。
論文 参考訳(メタデータ) (2022-01-08T16:03:01Z) - Skeleton-Aware Networks for Deep Motion Retargeting [83.65593033474384]
骨格間のデータ駆動動作のための新しいディープラーニングフレームワークを提案する。
我々の手法は、トレーニングセットの運動間の明確なペアリングを必要とせずに、再ターゲティングの仕方を学ぶ。
論文 参考訳(メタデータ) (2020-05-12T12:51:40Z) - Image Morphing with Perceptual Constraints and STN Alignment [70.38273150435928]
本稿では,一対の入力画像で動作する条件付きGANモーフィングフレームワークを提案する。
特別なトレーニングプロトコルは、知覚的類似性損失と組み合わせてフレームのシーケンスを生成し、時間とともにスムーズな変換を促進する。
我々は、古典的かつ潜時的な空間変形技術との比較を行い、自己スーパービジョンのための一連の画像から、我々のネットワークが視覚的に楽しむモーフィング効果を生成することを実証する。
論文 参考訳(メタデータ) (2020-04-29T10:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。