Fugu-MT 論文翻訳(概要): ASL Recognition with Metric-Learning based Lightweight Network

論文の概要: ASL Recognition with Metric-Learning based Lightweight Network

arxiv url: http://arxiv.org/abs/2004.05054v1
Date: Fri, 10 Apr 2020 14:41:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-14 21:10:40.792476
Title: ASL Recognition with Metric-Learning based Lightweight Network
Title（参考訳）: メトリックラーニングに基づく軽量ネットワークを用いたASL認識
Authors: Evgeny Izutov
Abstract要約: 本稿では,ASLジェスチャ認識のための軽量ネットワークを提案する。トレーニングコードは、Intel OpenVINO Training Extensionsの一部として利用可能である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the past decades the set of human tasks that are solved by machines was extended dramatically. From simple image classification problems researchers now move towards solving more sophisticated and vital problems, like, autonomous driving and language translation. The case of language translation includes a challenging area of sign language translation that incorporates both image and language processing. We make a step in that direction by proposing a lightweight network for ASL gesture recognition with a performance sufficient for practical applications. The proposed solution demonstrates impressive robustness on MS-ASL dataset and in live mode for continuous sign gesture recognition scenario. Additionally, we describe how to combine action recognition model training with metric-learning to train the network on the database of limited size. The training code is available as part of Intel OpenVINO Training Extensions.
Abstract（参考訳）: 過去数十年間、機械によって解決される人間のタスクのセットは劇的に拡張された。画像分類の単純な問題から、研究者たちは、自律運転や言語翻訳など、より高度で重要な問題を解決しようとしている。言語翻訳のケースには、画像処理と言語処理の両方を含む手話翻訳の難しい領域が含まれている。 ASLジェスチャ認識のための軽量ネットワークを実用化に十分な性能で提案することで,その方向への一歩を踏み出す。提案手法は,MS-ASLデータセットおよび連続手話認識シナリオのライブモードにおける顕著な堅牢性を示す。さらに,行動認識モデルトレーニングとメトリック学習を組み合わせて,限られたサイズのデータベース上でネットワークをトレーニングする方法についても述べる。トレーニングコードは、Intel OpenVINO Training Extensionsの一部として利用可能である。

関連論文リスト

Interpretable Zero-Shot Learning with Locally-Aligned Vision-Language Model [56.573203512455706]
大規模視覚言語モデル(VLM)は、大規模視覚テキストペアデータセットを活用することでゼロショット学習(ZSL)において顕著な成功を収めた。この問題に対処する1つのアプローチは、言語を統合することで解釈可能なモデルを開発することである。本稿では,ZSLを解釈可能な言語モデルであるLaZSLを提案する。
論文参考訳（メタデータ） (2025-06-30T13:14:46Z)
Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。 CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文参考訳（メタデータ） (2024-10-03T17:56:09Z)
Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。 SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文参考訳（メタデータ） (2024-09-11T17:17:44Z)
ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。 ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文参考訳（メタデータ） (2024-05-09T10:58:37Z)
Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文参考訳（メタデータ） (2024-04-29T23:21:17Z)
SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。従来の方法と比較して最先端の結果が得られます。
論文参考訳（メタデータ） (2024-01-22T11:04:55Z)
PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文参考訳（メタデータ） (2023-05-29T18:58:38Z)
Explore More Guidance: A Task-aware Instruction Network for Sign Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文参考訳（メタデータ） (2022-04-12T17:09:44Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
Application of Transfer Learning to Sign Language Recognition using an Inflated 3D Deep Convolutional Neural Network [0.0]
転送学習は、十分なデータを持たない対象タスクを解決するのに役立つ大量のデータを持つ関連タスクを活用する技術である。本稿では,手話認識における伝達学習の有効性について検討する。
論文参考訳（メタデータ） (2021-02-25T13:37:39Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。