論文の概要: Generative Multi-Stream Architecture For American Sign Language
Recognition
- arxiv url: http://arxiv.org/abs/2003.08743v1
- Date: Mon, 9 Mar 2020 21:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:18:57.599687
- Title: Generative Multi-Stream Architecture For American Sign Language
Recognition
- Title(参考訳): アメリカ手話認識のための生成的マルチストリームアーキテクチャ
- Authors: Dom Huh, Sai Gurrapu, Frederick Olson, Huzefa Rangwala, Parth Pathak,
Jana Kosecka
- Abstract要約: 複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。
本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。
提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
- 参考スコア(独自算出の注目度): 15.717424753251674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With advancements in deep model architectures, tasks in computer vision can
reach optimal convergence provided proper data preprocessing and model
parameter initialization. However, training on datasets with low
feature-richness for complex applications limit and detriment optimal
convergence below human performance. In past works, researchers have provided
external sources of complementary data at the cost of supplementary hardware,
which are fed in streams to counteract this limitation and boost performance.
We propose a generative multi-stream architecture, eliminating the need for
additional hardware with the intent to improve feature richness without risking
impracticability. We also introduce the compact spatio-temporal residual block
to the standard 3-dimensional convolutional model, C3D. Our rC3D model performs
comparatively to the top C3D residual variant architecture, the pseudo-3D
model, on the FASL-RGB dataset. Our methods have achieved 95.62% validation
accuracy with a variance of 1.42% from training, outperforming past models by
0.45% in validation accuracy and 5.53% in variance.
- Abstract(参考訳): ディープモデルアーキテクチャの進歩により、コンピュータビジョンのタスクは適切なデータ前処理とモデルパラメータの初期化により最適な収束に到達できる。
しかしながら、複雑なアプリケーションのための機能豊富度の低いデータセットのトレーニングは、人間のパフォーマンス以下の最適収束を制限している。
過去の研究で、研究者は補助ハードウェアのコストで補完データの外部ソースを提供しており、この制限に対処し、性能を高めるためにストリームに供給されている。
提案する生成型マルチストリームアーキテクチャは,非現実性を危険にさらすことなく,機能豊かさ向上を目的としたハードウェアの追加の必要性を解消する。
また,標準3次元畳み込みモデルであるC3Dにコンパクトな時空間残差ブロックを導入する。
我々のrC3DモデルはFASL-RGBデータセット上で,上位のC3D残差変動型アーキテクチャ,擬似3Dモデルに対して相対的に動作する。
検証精度は95.62%で, トレーニングによるばらつきは1.42%であり, 検証精度は0.45%, ばらつきは5.53%であった。
関連論文リスト
- Factorized Implicit Global Convolution for Automotive Computational Fluid Dynamics Prediction [52.32698071488864]
非常に大きな3DメッシュのCFD問題を効率的に解く新しいアーキテクチャであるFactized Implicit Global Convolution (FIGConv)を提案する。
FIGConvは、既存の3DニューラルCFDモデルよりも大幅に改善された2次複雑性の$O(N2)$を達成する。
業界標準のAhmedボディデータセットと大規模DrivAerNetデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:57:57Z) - Building Efficient Lightweight CNN Models [0.0]
畳み込みニューラルネットワーク(CNN)は、その堅牢な特徴抽出能力のため、画像分類タスクにおいて重要である。
本稿では,競争精度を維持しつつ軽量CNNを構築する手法を提案する。
提案モデルは手書き文字MNISTで99%,ファッションMNISTで89%,パラメータは14,862,モデルサイズは0.17MBであった。
論文 参考訳(メタデータ) (2025-01-26T14:39:01Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Pretrained Deep 2.5D Models for Efficient Predictive Modeling from
Retinal OCT [7.8641166297532035]
3Dディープラーニングモデルは、病気進行の強力な予測モデルを構築する上で重要な役割を果たす。
本稿では、畳み込みニューラルネットワーク(CNN)、長寿命メモリ(LSTM)、トランスフォーマーを組み合わせた2.5Dアーキテクチャについて検討する。
湿潤加齢関連黄斑変性(AMD)の進行を6ヶ月以内に予測する作業において,建築と関連する事前訓練の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-25T23:46:48Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。