論文の概要: CatNet: Class Incremental 3D ConvNets for Lifelong Egocentric Gesture
Recognition
- arxiv url: http://arxiv.org/abs/2004.09215v1
- Date: Mon, 20 Apr 2020 11:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:19:34.986460
- Title: CatNet: Class Incremental 3D ConvNets for Lifelong Egocentric Gesture
Recognition
- Title(参考訳): CatNet:Egocentric Gesture Recognitionのためのクラスインクリメンタル3D ConvNets
- Authors: Zhengwei Wang, Qi She, Tejo Chalasani, Aljosa Smolic
- Abstract要約: エゴセントリックなジェスチャーは、人間がVR/ARヘルメットやメガネのようなウェアラブルデバイスと対話するための、最も自然なコミュニケーション形態である。
従来のディープラーニングメソッドでは、すべての前のクラスサンプルをシステムに格納し、スクラッチからモデルを再トレーニングする必要があります。
本研究では、生涯にわたる3D畳み込みフレームワーク-c(C)la(a)s increment(t)al net(Net)work(CatNet)を実証する。
本稿では,RGBと奥行きモードを2つの異なるネットワークをトレーニングするための2ストリームのCatNetを提案する。
- 参考スコア(独自算出の注目度): 24.706843543488763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric gestures are the most natural form of communication for humans to
interact with wearable devices such as VR/AR helmets and glasses. A major issue
in such scenarios for real-world applications is that may easily become
necessary to add new gestures to the system e.g., a proper VR system should
allow users to customize gestures incrementally. Traditional deep learning
methods require storing all previous class samples in the system and training
the model again from scratch by incorporating previous samples and new samples,
which costs humongous memory and significantly increases computation over time.
In this work, we demonstrate a lifelong 3D convolutional framework --
c(C)la(a)ss increment(t)al net(Net)work (CatNet), which considers temporal
information in videos and enables lifelong learning for egocentric gesture
video recognition by learning the feature representation of an exemplar set
selected from previous class samples. Importantly, we propose a two-stream
CatNet, which deploys RGB and depth modalities to train two separate networks.
We evaluate CatNets on a publicly available dataset -- EgoGesture dataset, and
show that CatNets can learn many classes incrementally over a long period of
time. Results also demonstrate that the two-stream architecture achieves the
best performance on both joint training and class incremental training compared
to 3 other one-stream architectures. The codes and pre-trained models used in
this work are provided at https://github.com/villawang/CatNet.
- Abstract(参考訳): エゴセントリックなジェスチャーは、人間がVR/ARヘルメットやメガネのようなウェアラブルデバイスと対話するための最も自然なコミュニケーション形態である。
現実世界のアプリケーションにおけるこのようなシナリオにおける大きな問題は、システムに新しいジェスチャーを追加する必要が容易になり、例えば、適切なVRシステムはユーザーが段階的にジェスチャーをカスタマイズできるようにする。
従来のディープラーニング手法では、すべての前のクラスサンプルをシステムに格納し、前のサンプルと新しいサンプルを組み込むことで、スクラッチからモデルを再訓練する必要がある。
本研究では,ビデオ中の時間情報を考慮し,先行クラスから選択した例集合の特徴表現を学習することにより,エゴセンタ型ジェスチャー映像認識のための生涯学習を可能にする3次元畳み込みフレームワーク -c(c)la(a)ss incremental(t)al net(net)work (catnet) を実演する。
重要となるのは,rgbと奥行きモードを配置して2つのネットワークを訓練する2つのストリームcatnetを提案することである。
CatNetsは、公開データセット -- EgoGestureデータセットで評価し、長時間にわたって多くのクラスを段階的に学習できることを示します。
また、この2ストリームアーキテクチャは、他の3つの1ストリームアーキテクチャと比較して、ジョイントトレーニングとクラスインクリメンタルトレーニングの両方で最高のパフォーマンスを達成することを示した。
この作業で使用されるコードと事前トレーニングされたモデルは、https://github.com/villawang/catnetで提供される。
関連論文リスト
- Foundation Model-Powered 3D Few-Shot Class Incremental Learning via Training-free Adaptor [9.54964908165465]
本稿では,3Dポイントクラウド環境におけるFew-Shot連続インクリメンタルラーニング問題に対処する新しい手法を提案する。
私たちは、ポイントクラウドデータに基づいて広範囲にトレーニングされた基礎的な3Dモデルを活用します。
このアプローチでは、二重キャッシュシステムを使用します。まず、モデルの予測にどれだけ自信があるかに基づいて、以前のテストサンプルを使用し、次に、オーバーフィッティングを防ぐために、少数の新しいタスクサンプルを含んでいます。
論文 参考訳(メタデータ) (2024-10-11T20:23:00Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - AutoSynth: Learning to Generate 3D Training Data for Object Point Cloud
Registration [69.21282992341007]
Auto Synthは、ポイントクラウド登録のための3Dトレーニングデータを自動的に生成する。
私たちはポイントクラウド登録ネットワークをもっと小さなサロゲートネットワークに置き換え、4056.43$のスピードアップを実現しました。
TUD-L,LINEMOD,Occluded-LINEMODに関する我々の研究結果は,検索データセットでトレーニングされたニューラルネットワークが,広く使用されているModelNet40データセットでトレーニングされたニューラルネットワークよりも一貫してパフォーマンスが向上していることを示す。
論文 参考訳(メタデータ) (2023-09-20T09:29:44Z) - Dynamic Clustering Transformer Network for Point Cloud Segmentation [23.149220817575195]
動的クラスタリングトランスネットワーク(DCTNet)と呼ばれる新しい3Dポイントクラウド表現ネットワークを提案する。
エンコーダ-デコーダアーキテクチャがあり、ローカルとグローバルの両方の機能学習が可能である。
提案手法は,オブジェクトベースデータセット(ShapeNet),都市ナビゲーションデータセット(Toronto-3D),マルチスペクトルLiDARデータセットを用いて評価した。
論文 参考訳(メタデータ) (2023-05-30T01:11:05Z) - Human activity recognition using deep learning approaches and single
frame cnn and convolutional lstm [0.0]
我々は、ビデオから人間の行動を認識するために、単一のフレーム畳み込みニューラルネットワーク(CNN)と畳み込み長短期記憶という、深層学習に基づく2つのアプローチを探索する。
2つのモデルは、ベンチマークアクション認識データセットであるUCF50と、実験のために作成された別のデータセットでトレーニングされ、評価された。
どちらのモデルも精度は良いが、単一のフレームCNNモデルはUCF50データセットで99.8%の精度で畳み込みLSTMモデルより優れている。
論文 参考訳(メタデータ) (2023-04-18T01:33:29Z) - What Makes for Effective Few-shot Point Cloud Classification? [18.62689395276194]
非順序構造,高いクラス内分散,微妙なクラス間差など,3次元のショットラーニングの方が難易度が高いことを示す。
そこで我々は,クラス内差の増大と微妙なクラス間差問題に対処するため,Cross-Instance Adaptation (CIA)モジュールと呼ばれる新しいプラグイン・アンド・プレイ・コンポーネントを提案する。
論文 参考訳(メタデータ) (2023-03-31T15:55:06Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - Learning Rate Curriculum [75.98230528486401]
ラーニングレートカリキュラム(LeRaC)と呼ばれる新しいカリキュラム学習手法を提案する。
LeRaCは、ニューラルネットワークの各レイヤ毎に異なる学習率を使用して、最初のトレーニングエポックの間、データに依存しないカリキュラムを作成する。
Smoothing(CBS)によるCurriculum(Curriculum)との比較を行った。
論文 参考訳(メタデータ) (2022-05-18T18:57:36Z) - Optimization Planning for 3D ConvNets [123.43419144051703]
3次元畳み込みニューラルネットワーク(3D ConvNets)を最適に学習するのは簡単ではない。
パスを一連のトレーニング“状態”に分解し、各状態におけるハイパーパラメータ、例えば学習率と入力クリップの長さを指定する。
我々は全ての候補状態に対して動的プログラミングを行い、最適な状態の置換、すなわち最適化経路を計画する。
論文 参考訳(メタデータ) (2022-01-11T16:13:31Z) - Learning Compositional Shape Priors for Few-Shot 3D Reconstruction [36.40776735291117]
複雑なエンコーダ・デコーダアーキテクチャが,カテゴリごとの大量のデータを利用することを示す。
データから直接クラス固有のグローバルな形状を学習する3つの方法を提案する。
人気のShapeNetデータセットの実験から,本手法はゼロショットベースラインを40%以上上回る性能を示した。
論文 参考訳(メタデータ) (2021-06-11T14:55:49Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。