論文の概要: Generative Multi-Stream Architecture For American Sign Language
Recognition
- arxiv url: http://arxiv.org/abs/2003.08743v1
- Date: Mon, 9 Mar 2020 21:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:18:57.599687
- Title: Generative Multi-Stream Architecture For American Sign Language
Recognition
- Title(参考訳): アメリカ手話認識のための生成的マルチストリームアーキテクチャ
- Authors: Dom Huh, Sai Gurrapu, Frederick Olson, Huzefa Rangwala, Parth Pathak,
Jana Kosecka
- Abstract要約: 複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。
本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。
提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
- 参考スコア(独自算出の注目度): 15.717424753251674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With advancements in deep model architectures, tasks in computer vision can
reach optimal convergence provided proper data preprocessing and model
parameter initialization. However, training on datasets with low
feature-richness for complex applications limit and detriment optimal
convergence below human performance. In past works, researchers have provided
external sources of complementary data at the cost of supplementary hardware,
which are fed in streams to counteract this limitation and boost performance.
We propose a generative multi-stream architecture, eliminating the need for
additional hardware with the intent to improve feature richness without risking
impracticability. We also introduce the compact spatio-temporal residual block
to the standard 3-dimensional convolutional model, C3D. Our rC3D model performs
comparatively to the top C3D residual variant architecture, the pseudo-3D
model, on the FASL-RGB dataset. Our methods have achieved 95.62% validation
accuracy with a variance of 1.42% from training, outperforming past models by
0.45% in validation accuracy and 5.53% in variance.
- Abstract(参考訳): ディープモデルアーキテクチャの進歩により、コンピュータビジョンのタスクは適切なデータ前処理とモデルパラメータの初期化により最適な収束に到達できる。
しかしながら、複雑なアプリケーションのための機能豊富度の低いデータセットのトレーニングは、人間のパフォーマンス以下の最適収束を制限している。
過去の研究で、研究者は補助ハードウェアのコストで補完データの外部ソースを提供しており、この制限に対処し、性能を高めるためにストリームに供給されている。
提案する生成型マルチストリームアーキテクチャは,非現実性を危険にさらすことなく,機能豊かさ向上を目的としたハードウェアの追加の必要性を解消する。
また,標準3次元畳み込みモデルであるC3Dにコンパクトな時空間残差ブロックを導入する。
我々のrC3DモデルはFASL-RGBデータセット上で,上位のC3D残差変動型アーキテクチャ,擬似3Dモデルに対して相対的に動作する。
検証精度は95.62%で, トレーニングによるばらつきは1.42%であり, 検証精度は0.45%, ばらつきは5.53%であった。
関連論文リスト
- OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning [55.339257446600634]
大規模命令追従データに基づいて訓練された強力な3DLLMであるRobin3Dを紹介する。
我々は,344K の逆数サンプル,508K の逆数サンプル,および165K のベンチマーク・トレーニング・セットからなる100万の命令追従データを構築した。
Robin3Dは、広く使用されている5つのマルチモーダル学習ベンチマークにおいて、従来方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-09-30T21:55:38Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Pretrained Deep 2.5D Models for Efficient Predictive Modeling from
Retinal OCT [7.8641166297532035]
3Dディープラーニングモデルは、病気進行の強力な予測モデルを構築する上で重要な役割を果たす。
本稿では、畳み込みニューラルネットワーク(CNN)、長寿命メモリ(LSTM)、トランスフォーマーを組み合わせた2.5Dアーキテクチャについて検討する。
湿潤加齢関連黄斑変性(AMD)の進行を6ヶ月以内に予測する作業において,建築と関連する事前訓練の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-25T23:46:48Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。