論文の概要: Multi-view knowledge distillation transformer for human action
recognition
- arxiv url: http://arxiv.org/abs/2303.14358v1
- Date: Sat, 25 Mar 2023 04:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:21:04.643250
- Title: Multi-view knowledge distillation transformer for human action
recognition
- Title(参考訳): 人間行動認識のための多視点知識蒸留変圧器
- Authors: Ying-Chen Lin, Vincent S. Tseng
- Abstract要約: 本稿では,教師ネットワークと学生ネットワークで構成されるMKDT(Multi-view Knowledge Distillation Transformer)フレームワークを提案する。
このフレームワークは、現実世界のアプリケーションにおける不完全なヒューマンアクション問題に対処することを目的としている。
- 参考スコア(独自算出の注目度): 3.6093339545734886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer-based methods have been utilized to improve the
performance of human action recognition. However, most of these studies assume
that multi-view data is complete, which may not always be the case in
real-world scenarios. Therefore, this paper presents a novel Multi-view
Knowledge Distillation Transformer (MKDT) framework that consists of a teacher
network and a student network. This framework aims to handle incomplete human
action problems in real-world applications. Specifically, the multi-view
knowledge distillation transformer uses a hierarchical vision transformer with
shifted windows to capture more spatial-temporal information. Experimental
results demonstrate that our framework outperforms the CNN-based method on
three public datasets.
- Abstract(参考訳): 近年,人間の行動認識の性能向上にトランスフォーマティブベースの手法が用いられている。
しかし、これらの研究のほとんどはマルチビューデータが完結していると仮定しており、現実のシナリオでは必ずしもそうとは限らない。
そこで本稿では,教師ネットワークと学生ネットワークで構成されるMKDT(Multi-view Knowledge Distillation Transformer)フレームワークを提案する。
このフレームワークは、現実世界のアプリケーションにおける不完全なヒューマンアクション問題に対処することを目的としている。
具体的には、多視点知識蒸留変圧器は、シフトウインドウを備えた階層型視覚変換器を用いて、より時空間的な情報を取得する。
実験の結果,このフレームワークは3つの公開データセット上でCNN法よりも優れていた。
関連論文リスト
- Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文 参考訳(メタデータ) (2024-04-14T18:57:38Z) - Transformer for Object Re-Identification: A Survey [69.61542572894263]
ビジョントランスフォーマーは、TransformerベースのRe-IDをさらに深く研究している。
本稿では、TransformerベースのRe-IDの総合的なレビューと詳細な分析を行う。
本稿では,教師なしRe-IDのトレンドを考えると,最先端性能を実現するための新しいトランスフォーマーベースラインUntransReIDを提案する。
論文 参考訳(メタデータ) (2024-01-13T03:17:57Z) - Learning Robust Visual-Semantic Embedding for Generalizable Person
Re-identification [11.562980171753162]
一般化可能な人物識別(Re-ID)は、機械学習とコンピュータビジョンにおいて非常にホットな研究トピックである。
従来の手法は主に視覚表現学習に焦点をあてるが、訓練中の意味的特徴の可能性を検討することは無視される。
MMETと呼ばれるマルチモーダル等価変換器を提案し,より堅牢なビジュアル・セマンティックな埋め込み学習を実現する。
論文 参考訳(メタデータ) (2023-04-19T08:37:25Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - Multi-View Fusion Transformer for Sensor-Based Human Activity
Recognition [15.845205542668472]
センサに基づく人間活動認識(HAR)は、加速度計やジャイロスコープなどのマルチモーダルセンサから収集されたリッチな時系列データに基づいて、人間の活動を認識することを目的としている。
近年の深層学習手法は、時間的視点などのデータの一視点に焦点を合わせており、浅層学習法は、例えば統計的視点のような手工芸的特徴を利用する傾向にある。
本稿では,新しいアテンション機構とともに,MVFT(Multi-view fusion transformer)という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T07:15:22Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。