Fugu-MT 論文翻訳(概要): Writing in The Air: Unconstrained Text Recognition from Finger Movement Using Spatio-Temporal Convolution

論文の概要: Writing in The Air: Unconstrained Text Recognition from Finger Movement Using Spatio-Temporal Convolution

arxiv url: http://arxiv.org/abs/2104.09021v1
Date: Mon, 19 Apr 2021 02:37:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-20 13:51:44.218559
Title: Writing in The Air: Unconstrained Text Recognition from Finger Movement Using Spatio-Temporal Convolution
Title（参考訳）: 空気中の文字:時空間畳み込みを用いた指運動からの非拘束テキスト認識
Authors: Ue-Hwan Kim, Yewon Hwang, Sun-Kyung Lee, Jong-Hwan Kim
Abstract要約: 本論文では,WiTA(Entering writing in the Air)タスクに対する新たなベンチマークデータセットについて紹介する。 WiTAは、人間とコンピュータの相互作用のための指の動きと直感的で自然な書き込み方法を実装します。私たちのデータセットは、2つの言語(韓国語と英語)の5つのサブデータセットで構成され、122の参加者から209,926インスタンスに相当します。
参考スコア（独自算出の注目度）: 3.3502165500990824
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce a new benchmark dataset for the challenging writing in the air (WiTA) task -- an elaborate task bridging vision and NLP. WiTA implements an intuitive and natural writing method with finger movement for human-computer interaction (HCI). Our WiTA dataset will facilitate the development of data-driven WiTA systems which thus far have displayed unsatisfactory performance -- due to lack of dataset as well as traditional statistical models they have adopted. Our dataset consists of five sub-datasets in two languages (Korean and English) and amounts to 209,926 video instances from 122 participants. We capture finger movement for WiTA with RGB cameras to ensure wide accessibility and cost-efficiency. Next, we propose spatio-temporal residual network architectures inspired by 3D ResNet. These models perform unconstrained text recognition from finger movement, guarantee a real-time operation by processing 435 and 697 decoding frames-per-second for Korean and English, respectively, and will serve as an evaluation standard. Our dataset and the source codes are available at https://github.com/Uehwan/WiTA.
Abstract（参考訳）: 本稿では,視覚とNLPの精巧なタスクブリッジングタスクであるWiTAタスクのための新しいベンチマークデータセットを提案する。 WiTAは人-コンピュータインタラクション(HCI)のための指の動きによる直感的で自然な筆記法を実装している。私たちのWiTAデータセットは、データセットの欠如と、採用した従来の統計モデルのために、これまで不満足なパフォーマンスを示してきた、データ駆動型WiTAシステムの開発を容易にします。本データセットは韓国語と英語の5つのサブデータセットで構成され,122人の参加者から209,926の動画インスタンスを抽出した。我々は、RGBカメラでWiTAの指の動きを捉え、幅広いアクセシビリティとコスト効率を確保する。次に3次元ResNetにインスパイアされた時空間残差ネットワークアーキテクチャを提案する。これらのモデルは指の動きから制約のないテキスト認識を行い、韓国語と英語でそれぞれ435フレームと697フレームのデコーディングを処理してリアルタイム動作を保証し、評価基準となる。私たちのデータセットとソースコードはhttps://github.com/Uehwan/WiTA.comで公開されています。

関連論文リスト

3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering [52.01655676571933]
3D-MoReは、基礎モデルの強みを活用して、大規模な3D言語データセットを生成するように設計されている。このフレームワークは、マルチモーダル埋め込み、クロスモーダルインタラクション、言語モデルデコーダなど、主要なコンポーネントを統合している。 ScanNetの3DシーンデータセットとScanQAとScanReferのテキストアノテーションを使用して、3D-MoReは62,000の質問応答ペアと73,000のオブジェクト記述を生成する。
論文参考訳（メタデータ） (2025-07-16T08:38:26Z)
Developing Lightweight DNN Models With Limited Data For Real-Time Sign Language Recognition [0.0]
限られたデータに基づいて訓練された軽量DNNを用いて,リアルタイム手話認識のための新しいフレームワークを提案する。本システムは,データ不足,高い計算コスト,トレーニング環境と推論環境のフレームレートの相違など,手話認識における重要な課題に対処する。
論文参考訳（メタデータ） (2025-06-30T20:34:54Z)
HandReader: Advanced Techniques for Efficient Fingerspelling Recognition [75.38606213726906]
本稿では,指先認識タスクに対処するために設計された3つのアーキテクチャ群であるHandReaderを紹介する。 HandReader$_RGB$は、様々な長さのビデオからRGBの機能を処理するために、Adaptive Shift-Temporal Module (TSAM) という小説を使っている。 HandReader$_KP$は、キーポイントをテンソルとして操作するTPE(Temporal Pose)上に構築されている。各HandReaderモデルは、それぞれ異なるアドバンテージを持ち、ChicagoFSWildとChicagoFSWild+データセットの最先端の結果を達成する。
論文参考訳（メタデータ） (2025-05-15T13:18:37Z)
Speculative End-Turn Detector for Efficient Speech Chatbot Assistant [11.136112399898481]
エンドターン検出のための最初の公開データセットであるETDデータセットを紹介する。また,資源制約環境におけるリアルタイムETDを改善するために,効率と精度のバランスをとる新しい協調推論フレームワークであるSpeculativeETDを提案する。実験により,提案したSpeculativeETDは,必要な計算量を低く保ちながら,ETDの精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-03-30T13:34:23Z)
EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文参考訳（メタデータ） (2024-07-17T14:16:35Z)
Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文参考訳（メタデータ） (2024-07-02T09:43:47Z)
Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。 ASLデータセットのモデルによって達成される精度は99.12%である。このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文参考訳（メタデータ） (2024-06-06T04:05:12Z)
Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は視覚と触覚のモダリティに焦点を当てています我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文参考訳（メタデータ） (2024-03-14T19:01:54Z)
Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文参考訳（メタデータ） (2024-02-08T03:41:39Z)
Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文参考訳（メタデータ） (2023-05-25T08:32:41Z)
ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文参考訳（メタデータ） (2022-11-19T03:50:33Z)
Robotic Detection of a Human-Comprehensible Gestural Language for Underwater Multi-Human-Robot Collaboration [16.823029377470363]
本稿では,自律型水中車両(AUV)とヒトダイバーの非言語コミュニケーションを可能にする移動型ロボット通信フレームワークを提案する。我々は,会話を観察するダイバーが容易に理解できるAUV-to-A通信のためのジェスチャー言語を設計する。 Asが別のAUVからのジェスチャーを視覚的に理解できるようにするために,自己認識機構を利用したディープネットワーク(RRCommNet)を提案する。
論文参考訳（メタデータ） (2022-07-12T06:04:12Z)
Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文参考訳（メタデータ） (2021-10-12T16:57:18Z)
Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。 AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文参考訳（メタデータ） (2021-04-23T17:59:28Z)
IPN Hand: A Video Dataset and Benchmark for Real-Time Continuous Hand Gesture Recognition [11.917058689674327]
我々は,深層ニューラルネットワークのトレーニングと評価が可能な,十分なサイズ,多様性,実世界の要素を備えた,IPN Handという新しいベンチマークデータセットを導入する。このデータセットには、4000以上のジェスチャーサンプルと、50の異なる被験者から80,000のRGBフレームが含まれている。本データセットでは,3つの3次元CNNモデルの性能を,孤立的かつ連続的なリアルタイムHGRのタスクに基づいて評価する。
論文参考訳（メタデータ） (2020-04-20T08:52:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。