論文の概要: GSSF: A Generative Sequence Similarity Function based on a Seq2Seq model
for clustering online handwritten mathematical answers
- arxiv url: http://arxiv.org/abs/2105.10159v1
- Date: Fri, 21 May 2021 06:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:26:16.971161
- Title: GSSF: A Generative Sequence Similarity Function based on a Seq2Seq model
for clustering online handwritten mathematical answers
- Title(参考訳): GSSF:オンライン手書き数解のクラスタリングのためのSeq2Seqモデルに基づく生成系列類似関数
- Authors: Huy Quang Ung, Cuong Tuan Nguyen, Hung Tuan Nguyen and Masaki Nakagawa
- Abstract要約: シーケンス・ツー・シーケンス・オンHME認識器に基づく2つのOnHMEの類似度スコアを計算するための生成シーケンス類似度関数を提案する。
実パターンと合成パターンを混合した200 OnHMEの回答データセット(Dset_Mix)を用いて10質問毎に実験を行った。
- 参考スコア(独自算出の注目度): 7.868468656324007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Toward a computer-assisted marking for descriptive math questions,this paper
presents clustering of online handwritten mathematical expressions (OnHMEs) to
help human markers to mark them efficiently and reliably. We propose a
generative sequence similarity function for computing a similarity score of two
OnHMEs based on a sequence-to-sequence OnHME recognizer. Each OnHME is
represented by a similarity-based representation (SbR) vector. The SbR matrix
is inputted to the k-means algorithm for clustering OnHMEs. Experiments are
conducted on an answer dataset (Dset_Mix) of 200 OnHMEs mixed of real patterns
and synthesized patterns for each of 10 questions and a real online handwritten
mathematical answer dataset of 122 student answers at most for each of 15
questions (NIER_CBT). The best clustering results achieved around 0.916 and
0.915 for purity, and around 0.556 and 0.702 for the marking cost on Dset_Mix
and NIER_CBT, respectively. Our method currently outperforms the previous
methods for clustering HMEs.
- Abstract(参考訳): 本稿では, オンライン手書き数式 (onhmes) のクラスタリングにより, 人間のマーカーが効率的に, 確実にマーキングできるように, コンピュータ支援マーキングを提案する。
そこで本研究では、2つのonhmeの類似度スコアを計算するための生成シーケンス類似度関数を提案する。
各OnHMEは類似性に基づく表現(SbR)ベクトルで表される。
SbR行列は、OnHMEをクラスタリングするk平均アルゴリズムに入力される。
実パターンを混合した200のonhmeの解答データセット(dset_mix)と、15の質問(nier_cbt)の最大122のオンライン手書き数学解答データセット(real online hand written mathematical answer dataset)について実験を行った。
Dset_Mix と NIER_CBT のマーキングコストは 0.556 と 0.702 でそれぞれ 0.916 と 0.915 を純度で達成した。
本手法は,HMEをクラスタリングする従来の手法よりも優れている。
関連論文リスト
- ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - MOKD: Cross-domain Finetuning for Few-shot Classification via Maximizing Optimized Kernel Dependence [97.93517982908007]
NCCは、ドメイン間数ショットの分類において、少数ショットの分類が可能なメートル法空間を構築するために表現を学ぶことを目的としている。
本稿では,異なるクラスから得られた2つの標本の NCC 学習表現に高い類似性があることを見出した。
ラベル付きデータによって示されるクラスタ構造にマッチするクラス固有の表現の集合を学習するために、最適化されたカーネル依存(MOKD)を最大化する二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-29T05:59:52Z) - Gödel Number based Clustering Algorithm with Decimal First Degree Cellular Automata [0.0]
本稿では,FDCAに基づくクラスタリングアルゴリズムを提案する。
データオブジェクトは、G"odel番号ベースのエンコーディングを使用して十進文字列にエンコードされる。
既存のクラスタリングアルゴリズムと比較して,提案アルゴリズムは性能が向上する。
論文 参考訳(メタデータ) (2024-05-08T08:30:34Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - On the Equivalence of Graph Convolution and Mixup [70.0121263465133]
本稿では,グラフ畳み込みと混合手法の関係について検討する。
2つの穏やかな条件の下では、グラフの畳み込みはMixupの特別な形式と見なすことができる。
グラフ畳み込みネットワーク(GCN)と単純化グラフ畳み込み(SGC)をミックスアップの形で表現できることを証明し、数学的にこの等価性を確立する。
論文 参考訳(メタデータ) (2023-09-29T23:09:54Z) - Learning Hidden Markov Models Using Conditional Samples [72.20944611510198]
本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。
本稿では,HMMの条件分布からサンプルを問合せする対話型アクセスモデルを提案する。
具体的には、正確な条件付き確率に対するクエリアクセスが可能な設定において、HMMを学習するための効率的なアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-02-28T16:53:41Z) - Skew-Symmetric Adjacency Matrices for Clustering Directed Graphs [5.301300942803395]
カットベースの有向グラフ(グラフ)クラスタリングは、しばしばクラスタ内あるいはクラスタ間の疎結合を見つけることに焦点を当てる。
フローベースのクラスタリングでは、クラスタ間のエッジは一方向を向く傾向にあり、マイグレーションデータ、フードウェブ、トレーディングデータに見出されている。
論文 参考訳(メタデータ) (2022-03-02T20:07:04Z) - J-Score: A Robust Measure of Clustering Accuracy [8.33909555155795]
クラスタリング分析は、データセットに隠された構造を発見し、それらを非結合クラスタに分割する。
現在のクラスタリング精度測定には、未整合クラスタを見渡すこと、過剰なクラスタへのバイアス、不安定なベースライン、難解な解釈が含まれる。
これらの問題に対処する新しい精度尺度 J-score を提案する。
論文 参考訳(メタデータ) (2021-09-03T04:43:52Z) - Predictive K-means with local models [0.028675177318965035]
予測クラスタリングは、2つの世界のベストを獲得しようとします。
この手法を用いて2つの新しいアルゴリズムを提案し、予測性能に競争力があることを様々なデータセットで示す。
論文 参考訳(メタデータ) (2020-12-16T10:49:36Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。