論文の概要: Detecting Handwritten Mathematical Terms with Sensor Based Data
- arxiv url: http://arxiv.org/abs/2109.05594v1
- Date: Sun, 12 Sep 2021 19:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 09:06:54.844492
- Title: Detecting Handwritten Mathematical Terms with Sensor Based Data
- Title(参考訳): センサデータを用いた手書き数学用語の検出
- Authors: Lukas Wegmeth, Alexander Hoelzemann, Kristof Van Laerhoven
- Abstract要約: 本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
- 参考スコア(独自算出の注目度): 71.84852429039881
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work we propose a solution to the UbiComp 2021 Challenge by Stabilo
in which handwritten mathematical terms are supposed to be automatically
classified based on time series sensor data captured on the DigiPen. The input
data set contains data of different writers, with label strings constructed
from a total of 15 different possible characters. The label should first be
split into separate characters to classify them one by one. This issue is
solved by applying a data-dependant and rule-based information extraction
algorithm to the labeled data. Using the resulting data, two classifiers are
constructed. The first is a binary classifier that is able to predict, for
unknown data, if a sample is part of a writing activity, and consists of a Deep
Neural Network feature extractor in concatenation with a Random Forest that is
trained to classify the extracted features at an F1 score of >90%. The second
classifier is a Deep Neural Network that combines convolution layers with
recurrent layers to predict windows with a single label, out of the 15 possible
classes, at an F1 score of >60%. A simulation of the challenge evaluation
procedure reports a Levensthein Distance of 8 and shows that the chosen
approach still lacks in overall accuracy and real-time applicability.
- Abstract(参考訳): 本研究では,手書きの数学的用語をDigiPenで取得した時系列センサデータに基づいて自動的に分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットは、異なる書き手のデータを含み、合計15の異なる可能な文字からなるラベル文字列である。
ラベルはまず、個別の文字に分けて分類するべきです。
この問題はラベル付きデータにデータ依存およびルールに基づく情報抽出アルゴリズムを適用することで解決される。
結果データを使用して、2つの分類器が構築される。
1つ目は、未知のデータに対して、サンプルが書き込み活動の一部である場合の予測が可能なバイナリ分類器で、抽出された特徴を90%以上のF1スコアで分類するように訓練されたランダムフォレストと結合したディープニューラルネットワーク特徴抽出器で構成される。
第2の分類器はDeep Neural Network(ディープニューラルネットワーク)で、畳み込みレイヤとリカレントレイヤを組み合わせることで、F1スコアが60%の15の可能なクラスのうち、ひとつのラベルでウィンドウを予測する。
チャレンジ評価手順のシミュレーションでは,レベンセイン距離が8であり,選択したアプローチが全体的な精度とリアルタイム適用性に欠けていることが示されている。
関連論文リスト
- Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - A Self-Encoder for Learning Nearest Neighbors [5.297261090056809]
自己エンコーダは、データサンプルを埋め込み空間に分散して、互いに線形に分離できるように学習する。
通常の隣人とは異なり、このデータの符号化による予測は、あらゆる機能のスケーリングに不変である。
論文 参考訳(メタデータ) (2023-06-25T14:30:31Z) - A new data augmentation method for intent classification enhancement and
its application on spoken conversation datasets [23.495743195811375]
本稿では,Nearest Neighbors Scores Improvement (NNSI)アルゴリズムを提案する。
NNSIは、高度に曖昧なサンプルを自動的に選択し、それらを高精度にラベルすることで、手動ラベリングの必要性を減らす。
2つの大規模実生活音声対話システムにおけるNNSIの使用を実演した。
論文 参考訳(メタデータ) (2022-02-21T11:36:19Z) - AutoGeoLabel: Automated Label Generation for Geospatial Machine Learning [69.47585818994959]
リモートセンシングデータのためのラベルの自動生成のためのビッグデータ処理パイプラインを評価する。
我々は,大規模データプラットフォームであるIBM PAIRSを用いて,密集都市部でそのようなラベルを動的に生成する。
論文 参考訳(メタデータ) (2022-01-31T20:02:22Z) - A Unified Generative Adversarial Network Training via Self-Labeling and
Self-Attention [38.31735499785227]
本稿では,任意のレベルのラベリングを統一的に処理できる新しいGANトレーニング手法を提案する。
提案手法では,手動で定義したラベルを組み込むことができる人工ラベル方式を導入する。
我々は, CIFAR-10, STL-10, SVHNに対するアプローチを評価し, 自己ラベルと自己アテンションの両方が生成データの品質を継続的に向上することを示す。
論文 参考訳(メタデータ) (2021-06-18T04:40:26Z) - Label Inference Attacks from Log-loss Scores [11.780563744330038]
本稿では,データセットへの他のアクセスを伴わない単一(あるいは複数)のログロススコアからデータセットのラベルを推定する問題について検討する。
驚くべきことに、任意の有限個のラベルクラスに対して、注意深く構築された単一の予測ベクトルのログロススコアからデータセットのラベルを正確に推測できることが示されている。
本稿では,ログロススコアにノイズを加えたり,限定精度の演算を行うラベル推論アルゴリズム(アタック)を提案する。
論文 参考訳(メタデータ) (2021-05-18T04:17:06Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Enhanced Offensive Language Detection Through Data Augmentation [2.2022484178680872]
ICWSM-2020 Data Challenge Task 2は、100万のラベル付きツイートを含むクラウドソースデータセットを使用して、攻撃的なコンテンツを特定することを目的としている。
データセットはクラス不均衡に悩まされており、特定のラベルは他のクラスと比較して非常に稀である。
本稿では,不均衡データと低リソースデータの分類性能を向上させる世代別データ拡張手法であるDagerを提案する。
論文 参考訳(メタデータ) (2020-12-05T05:45:16Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。