論文の概要: Writing in The Air: Unconstrained Text Recognition from Finger Movement
Using Spatio-Temporal Convolution
- arxiv url: http://arxiv.org/abs/2104.09021v1
- Date: Mon, 19 Apr 2021 02:37:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:51:44.218559
- Title: Writing in The Air: Unconstrained Text Recognition from Finger Movement
Using Spatio-Temporal Convolution
- Title(参考訳): 空気中の文字:時空間畳み込みを用いた指運動からの非拘束テキスト認識
- Authors: Ue-Hwan Kim, Yewon Hwang, Sun-Kyung Lee, Jong-Hwan Kim
- Abstract要約: 本論文では,WiTA(Entering writing in the Air)タスクに対する新たなベンチマークデータセットについて紹介する。
WiTAは、人間とコンピュータの相互作用のための指の動きと直感的で自然な書き込み方法を実装します。
私たちのデータセットは、2つの言語(韓国語と英語)の5つのサブデータセットで構成され、122の参加者から209,926インスタンスに相当します。
- 参考スコア(独自算出の注目度): 3.3502165500990824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a new benchmark dataset for the challenging
writing in the air (WiTA) task -- an elaborate task bridging vision and NLP.
WiTA implements an intuitive and natural writing method with finger movement
for human-computer interaction (HCI). Our WiTA dataset will facilitate the
development of data-driven WiTA systems which thus far have displayed
unsatisfactory performance -- due to lack of dataset as well as traditional
statistical models they have adopted. Our dataset consists of five sub-datasets
in two languages (Korean and English) and amounts to 209,926 video instances
from 122 participants. We capture finger movement for WiTA with RGB cameras to
ensure wide accessibility and cost-efficiency. Next, we propose spatio-temporal
residual network architectures inspired by 3D ResNet. These models perform
unconstrained text recognition from finger movement, guarantee a real-time
operation by processing 435 and 697 decoding frames-per-second for Korean and
English, respectively, and will serve as an evaluation standard. Our dataset
and the source codes are available at https://github.com/Uehwan/WiTA.
- Abstract(参考訳): 本稿では,視覚とNLPの精巧なタスクブリッジングタスクであるWiTAタスクのための新しいベンチマークデータセットを提案する。
WiTAは人-コンピュータインタラクション(HCI)のための指の動きによる直感的で自然な筆記法を実装している。
私たちのWiTAデータセットは、データセットの欠如と、採用した従来の統計モデルのために、これまで不満足なパフォーマンスを示してきた、データ駆動型WiTAシステムの開発を容易にします。
本データセットは韓国語と英語の5つのサブデータセットで構成され,122人の参加者から209,926の動画インスタンスを抽出した。
我々は、RGBカメラでWiTAの指の動きを捉え、幅広いアクセシビリティとコスト効率を確保する。
次に3次元ResNetにインスパイアされた時空間残差ネットワークアーキテクチャを提案する。
これらのモデルは指の動きから制約のないテキスト認識を行い、韓国語と英語でそれぞれ435フレームと697フレームのデコーディングを処理してリアルタイム動作を保証し、評価基準となる。
私たちのデータセットとソースコードはhttps://github.com/Uehwan/WiTA.comで公開されています。
関連論文リスト
- EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Robotic Detection of a Human-Comprehensible Gestural Language for
Underwater Multi-Human-Robot Collaboration [16.823029377470363]
本稿では,自律型水中車両(AUV)とヒトダイバーの非言語コミュニケーションを可能にする移動型ロボット通信フレームワークを提案する。
我々は,会話を観察するダイバーが容易に理解できるAUV-to-A通信のためのジェスチャー言語を設計する。
Asが別のAUVからのジェスチャーを視覚的に理解できるようにするために,自己認識機構を利用したディープネットワーク(RRCommNet)を提案する。
論文 参考訳(メタデータ) (2022-07-12T06:04:12Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - IPN Hand: A Video Dataset and Benchmark for Real-Time Continuous Hand
Gesture Recognition [11.917058689674327]
我々は,深層ニューラルネットワークのトレーニングと評価が可能な,十分なサイズ,多様性,実世界の要素を備えた,IPN Handという新しいベンチマークデータセットを導入する。
このデータセットには、4000以上のジェスチャーサンプルと、50の異なる被験者から80,000のRGBフレームが含まれている。
本データセットでは,3つの3次元CNNモデルの性能を,孤立的かつ連続的なリアルタイムHGRのタスクに基づいて評価する。
論文 参考訳(メタデータ) (2020-04-20T08:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。