論文の概要: Writing in The Air: Unconstrained Text Recognition from Finger Movement
Using Spatio-Temporal Convolution
- arxiv url: http://arxiv.org/abs/2104.09021v1
- Date: Mon, 19 Apr 2021 02:37:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:51:44.218559
- Title: Writing in The Air: Unconstrained Text Recognition from Finger Movement
Using Spatio-Temporal Convolution
- Title(参考訳): 空気中の文字:時空間畳み込みを用いた指運動からの非拘束テキスト認識
- Authors: Ue-Hwan Kim, Yewon Hwang, Sun-Kyung Lee, Jong-Hwan Kim
- Abstract要約: 本論文では,WiTA(Entering writing in the Air)タスクに対する新たなベンチマークデータセットについて紹介する。
WiTAは、人間とコンピュータの相互作用のための指の動きと直感的で自然な書き込み方法を実装します。
私たちのデータセットは、2つの言語(韓国語と英語)の5つのサブデータセットで構成され、122の参加者から209,926インスタンスに相当します。
- 参考スコア(独自算出の注目度): 3.3502165500990824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a new benchmark dataset for the challenging
writing in the air (WiTA) task -- an elaborate task bridging vision and NLP.
WiTA implements an intuitive and natural writing method with finger movement
for human-computer interaction (HCI). Our WiTA dataset will facilitate the
development of data-driven WiTA systems which thus far have displayed
unsatisfactory performance -- due to lack of dataset as well as traditional
statistical models they have adopted. Our dataset consists of five sub-datasets
in two languages (Korean and English) and amounts to 209,926 video instances
from 122 participants. We capture finger movement for WiTA with RGB cameras to
ensure wide accessibility and cost-efficiency. Next, we propose spatio-temporal
residual network architectures inspired by 3D ResNet. These models perform
unconstrained text recognition from finger movement, guarantee a real-time
operation by processing 435 and 697 decoding frames-per-second for Korean and
English, respectively, and will serve as an evaluation standard. Our dataset
and the source codes are available at https://github.com/Uehwan/WiTA.
- Abstract(参考訳): 本稿では,視覚とNLPの精巧なタスクブリッジングタスクであるWiTAタスクのための新しいベンチマークデータセットを提案する。
WiTAは人-コンピュータインタラクション(HCI)のための指の動きによる直感的で自然な筆記法を実装している。
私たちのWiTAデータセットは、データセットの欠如と、採用した従来の統計モデルのために、これまで不満足なパフォーマンスを示してきた、データ駆動型WiTAシステムの開発を容易にします。
本データセットは韓国語と英語の5つのサブデータセットで構成され,122人の参加者から209,926の動画インスタンスを抽出した。
我々は、RGBカメラでWiTAの指の動きを捉え、幅広いアクセシビリティとコスト効率を確保する。
次に3次元ResNetにインスパイアされた時空間残差ネットワークアーキテクチャを提案する。
これらのモデルは指の動きから制約のないテキスト認識を行い、韓国語と英語でそれぞれ435フレームと697フレームのデコーディングを処理してリアルタイム動作を保証し、評価基準となる。
私たちのデータセットとソースコードはhttps://github.com/Uehwan/WiTA.comで公開されています。
関連論文リスト
- Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - TrICy: Trigger-guided Data-to-text Generation with Intent aware
Attention-Copy [3.770226046709029]
TrICyは拡張D2Tタスクのための軽量フレームワークである。
我々は注意コピー機構を利用して語彙外単語を正確に予測する。
論文 参考訳(メタデータ) (2024-01-25T20:17:06Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Robotic Detection of a Human-Comprehensible Gestural Language for
Underwater Multi-Human-Robot Collaboration [16.823029377470363]
本稿では,自律型水中車両(AUV)とヒトダイバーの非言語コミュニケーションを可能にする移動型ロボット通信フレームワークを提案する。
我々は,会話を観察するダイバーが容易に理解できるAUV-to-A通信のためのジェスチャー言語を設計する。
Asが別のAUVからのジェスチャーを視覚的に理解できるようにするために,自己認識機構を利用したディープネットワーク(RRCommNet)を提案する。
論文 参考訳(メタデータ) (2022-07-12T06:04:12Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - MirrorWiC: On Eliciting Word-in-Context Representations from Pretrained
Language Models [61.48034827104998]
言語モデルにおけるワード・イン・コンテクスト(WiC)表現を改善するための教師なしアプローチを提案する。
MirrorWiCは標準的なコントラスト学習設定内でコンテキスト対応の単語表現を学習する。
提案した完全教師なしMirrorWiCモデルは,モノリンガル,マルチリンガル,クロスリンガルのすべてのセットアップにおいて,市販のPLMよりも大幅に向上する。
論文 参考訳(メタデータ) (2021-09-19T22:19:01Z) - Towards an IMU-based Pen Online Handwriting Recognizer [2.6707647984082357]
慣性測定単位(IMU)に基づく音声認識のためのオンライン手書き認識システムを提案する。
これは、加速度、角速度、およびBluetooth経由で流れる磁力を提供するセンサー付きペンによって得られる。
本モデルは畳み込み型LSTMネットワークと双方向型LSTMネットワークを組み合わせることで,コネクショナリストの時間的分類損失をトレーニングする。
論文 参考訳(メタデータ) (2021-05-26T09:47:19Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - IPN Hand: A Video Dataset and Benchmark for Real-Time Continuous Hand
Gesture Recognition [11.917058689674327]
我々は,深層ニューラルネットワークのトレーニングと評価が可能な,十分なサイズ,多様性,実世界の要素を備えた,IPN Handという新しいベンチマークデータセットを導入する。
このデータセットには、4000以上のジェスチャーサンプルと、50の異なる被験者から80,000のRGBフレームが含まれている。
本データセットでは,3つの3次元CNNモデルの性能を,孤立的かつ連続的なリアルタイムHGRのタスクに基づいて評価する。
論文 参考訳(メタデータ) (2020-04-20T08:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。