Fugu-MT 論文翻訳(概要): Generative Multi-Stream Architecture For American Sign Language Recognition

論文の概要: Generative Multi-Stream Architecture For American Sign Language Recognition

arxiv url: http://arxiv.org/abs/2003.08743v1
Date: Mon, 9 Mar 2020 21:04:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-25 09:18:57.599687
Title: Generative Multi-Stream Architecture For American Sign Language Recognition
Title（参考訳）: アメリカ手話認識のための生成的マルチストリームアーキテクチャ
Authors: Dom Huh, Sai Gurrapu, Frederick Olson, Huzefa Rangwala, Parth Pathak, Jana Kosecka
Abstract要約: 複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
参考スコア（独自算出の注目度）: 15.717424753251674
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With advancements in deep model architectures, tasks in computer vision can reach optimal convergence provided proper data preprocessing and model parameter initialization. However, training on datasets with low feature-richness for complex applications limit and detriment optimal convergence below human performance. In past works, researchers have provided external sources of complementary data at the cost of supplementary hardware, which are fed in streams to counteract this limitation and boost performance. We propose a generative multi-stream architecture, eliminating the need for additional hardware with the intent to improve feature richness without risking impracticability. We also introduce the compact spatio-temporal residual block to the standard 3-dimensional convolutional model, C3D. Our rC3D model performs comparatively to the top C3D residual variant architecture, the pseudo-3D model, on the FASL-RGB dataset. Our methods have achieved 95.62% validation accuracy with a variance of 1.42% from training, outperforming past models by 0.45% in validation accuracy and 5.53% in variance.
Abstract（参考訳）: ディープモデルアーキテクチャの進歩により、コンピュータビジョンのタスクは適切なデータ前処理とモデルパラメータの初期化により最適な収束に到達できる。しかしながら、複雑なアプリケーションのための機能豊富度の低いデータセットのトレーニングは、人間のパフォーマンス以下の最適収束を制限している。過去の研究で、研究者は補助ハードウェアのコストで補完データの外部ソースを提供しており、この制限に対処し、性能を高めるためにストリームに供給されている。提案する生成型マルチストリームアーキテクチャは,非現実性を危険にさらすことなく,機能豊かさ向上を目的としたハードウェアの追加の必要性を解消する。また,標準3次元畳み込みモデルであるC3Dにコンパクトな時空間残差ブロックを導入する。我々のrC3DモデルはFASL-RGBデータセット上で,上位のC3D残差変動型アーキテクチャ,擬似3Dモデルに対して相対的に動作する。検証精度は95.62%で, トレーニングによるばらつきは1.42%であり, 検証精度は0.45%, ばらつきは5.53%であった。

関連論文リスト

Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文参考訳（メタデータ） (2025-12-27T17:08:03Z)
ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation [44.75113949778924]
ARTDECOは、フィードフォワードモデルの効率とSLAMベースのパイプラインの信頼性を組み合わせた統合フレームワークである。 ARTDECOはSLAMに匹敵するインタラクティブな性能、フィードフォワードシステムに類似した堅牢性、シーンごとの最適化に近い再現品質を提供する。
論文参考訳（メタデータ） (2025-10-09T17:57:38Z)
HDiffTG: A Lightweight Hybrid Diffusion-Transformer-GCN Architecture for 3D Human Pose Estimation [21.823965837699166]
HDiffTGは、Transformer、Graph Convolutional Network(GCN)、拡散モデルを統一されたフレームワークに統合する、新しい3Dヒューマンポース(3DHCN)メソッドである。軽量な設計を維持しながら,HDiffTGはポーズ推定精度とロバスト性を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-05-07T09:26:37Z)
A Light Perspective for 3D Object Detection [46.23578780480946]
本稿では,最先端のDeep Learning技術を特徴抽出に取り入れた新しい手法を提案する。私たちのモデルであるNextBEVは、ResNet50やMobileNetV3といった既存の機能抽出ツールを超えています。これらの軽量な提案を融合することにより、VoxelNetベースのモデルの精度を2.93%向上し、PointPillarベースのモデルのF1スコアを約20%改善しました。
論文参考訳（メタデータ） (2025-03-10T10:03:23Z)
Factorized Implicit Global Convolution for Automotive Computational Fluid Dynamics Prediction [52.32698071488864]
非常に大きな3DメッシュのCFD問題を効率的に解く新しいアーキテクチャであるFactized Implicit Global Convolution (FIGConv)を提案する。 FIGConvは、既存の3DニューラルCFDモデルよりも大幅に改善された2次複雑性の$O(N2)$を達成する。業界標準のAhmedボディデータセットと大規模DrivAerNetデータセットに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-02-06T18:57:57Z)
Building Efficient Lightweight CNN Models [0.0]
畳み込みニューラルネットワーク(CNN)は、その堅牢な特徴抽出能力のため、画像分類タスクにおいて重要である。本稿では,競争精度を維持しつつ軽量CNNを構築する手法を提案する。提案モデルは手書き文字MNISTで99%,ファッションMNISTで89%,パラメータは14,862,モデルサイズは0.17MBであった。
論文参考訳（メタデータ） (2025-01-26T14:39:01Z)
3D Shape Tokenization via Latent Flow Matching [38.28217561449967]
我々は3次元曲面を3次元の確率密度関数、すなわちp(x,y,z)をフローマッチングでモデル化する潜在3次元表現を導入する。私たちの表現は、特に機械学習モデルによる消費のために設計されており、ポイントクラウドと最小限のデータ前処理を必要としながら、構築による連続性とコンパクト性を提供します。
論文参考訳（メタデータ） (2024-12-20T07:22:41Z)
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文参考訳（メタデータ） (2024-12-11T07:32:17Z)
OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。 OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文参考訳（メタデータ） (2024-11-06T06:34:27Z)
Lightweight Deep Learning Framework for Accurate Particle Flow Energy Reconstruction [8.598010350935596]
本稿では,ディープラーニング再構築の枠組みを体系的に評価する。重み付き平均2乗と誤差構造類似度指数を組み合わせたハイブリッド損失関数を設計する。我々は,モーダル時間的相関とエネルギー変位非線形性を捉えるモデルの能力を強化する。
論文参考訳（メタデータ） (2024-10-08T11:49:18Z)
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning [55.339257446600634]
大規模命令追従データに基づいて訓練された強力な3DLLMであるRobin3Dを紹介する。我々は,344K の逆数サンプル,508K の逆数サンプル,および165K のベンチマーク・トレーニング・セットからなる100万の命令追従データを構築した。 Robin3Dは、広く使用されている5つのマルチモーダル学習ベンチマークにおいて、従来方法よりも一貫して優れています。
論文参考訳（メタデータ） (2024-09-30T21:55:38Z)
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文参考訳（メタデータ） (2024-02-19T15:33:09Z)
FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文参考訳（メタデータ） (2023-12-28T14:52:07Z)
Pretrained Deep 2.5D Models for Efficient Predictive Modeling from Retinal OCT [7.8641166297532035]
3Dディープラーニングモデルは、病気進行の強力な予測モデルを構築する上で重要な役割を果たす。本稿では、畳み込みニューラルネットワーク(CNN)、長寿命メモリ(LSTM)、トランスフォーマーを組み合わせた2.5Dアーキテクチャについて検討する。湿潤加齢関連黄斑変性(AMD)の進行を6ヶ月以内に予測する作業において,建築と関連する事前訓練の有効性を実証した。
論文参考訳（メタデータ） (2023-07-25T23:46:48Z)
Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文参考訳（メタデータ） (2023-05-25T14:56:03Z)
SmoothNets: Optimizing CNN architecture design for differentially private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。 SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文参考訳（メタデータ） (2022-05-09T07:51:54Z)
Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文参考訳（メタデータ） (2021-01-18T03:24:48Z)
Point Transformer for Shape Classification and Retrieval of 3D and ALS Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文参考訳（メタデータ） (2020-11-08T08:11:02Z)
Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文参考訳（メタデータ） (2020-04-07T20:21:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。