Fugu-MT 論文翻訳(概要): An approach to extract information from academic transcripts of HUST

論文の概要: An approach to extract information from academic transcripts of HUST

arxiv url: http://arxiv.org/abs/2304.11454v1
Date: Sat, 22 Apr 2023 17:29:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-25 18:20:56.977599
Title: An approach to extract information from academic transcripts of HUST
Title（参考訳）: HUSTの学術写本から情報抽出へのアプローチ
Authors: Nguyen Quang Hieu, Nguyen Le Quy Duong, Le Quang Hoa, Nguyen Quang Dat
Abstract要約: 多くのベトナムの学校では、成績は依然として手動でデータベースに入力されている。本稿では,改良CRNNモデルを用いて,126文字の情報を抽出する手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In many Vietnamese schools, grades are still being inputted into the database manually, which is not only inefficient but also prone to human error. Thus, the automation of this process is highly necessary, which can only be achieved if we can extract information from academic transcripts. In this paper, we test our improved CRNN model in extracting information from 126 transcripts, with 1008 vertical lines, 3859 horizontal lines, and 2139 handwritten test scores. Then, this model is compared to the Baseline model. The results show that our model significantly outperforms the Baseline model with an accuracy of 99.6% in recognizing vertical lines, 100% in recognizing horizontal lines, and 96.11% in recognizing handwritten test scores.
Abstract（参考訳）: 多くのベトナムの学校では、成績は依然として手動でデータベースに入力されている。したがって、このプロセスの自動化は非常に必要であり、学術文献から情報を取り出すことができれば達成できる。本稿では,改良CRNNモデルを用いて,垂直線1008本,水平線3859本,手書きテストスコア2139本を用いて,126文字から情報抽出を行った。そして、このモデルはベースラインモデルと比較される。その結果, 縦線認識では99.6%, 横線認識では100%, 手書きテストスコア認識では96.11%の精度でベースラインモデルを大幅に上回っていることがわかった。

関連論文リスト

Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文参考訳（メタデータ） (2025-06-18T15:26:43Z)
Improving Embedding Accuracy for Document Retrieval Using Entity Relationship Maps and Model-Aware Contrastive Sampling [0.0]
APEX-Embedding-7Bは、7ビリオンパラメータデコーダのみのテキスト特徴抽出モデルである。このアプローチでは2つのトレーニング手法を採用して,現実の焦点を即時的に改善する。本モデルでは,より長いコンテキスト文書検索タスクに対して,テキスト特徴抽出における最先端の標準を新たに確立する。
論文参考訳（メタデータ） (2024-10-08T17:36:48Z)
Advancing Question Answering on Handwritten Documents: A State-of-the-Art Recognition-Based Model for HW-SQuAD [30.559280110711143]
本稿では,HW-SQuADデータセットとBenthamQAデータセットの先行技術を改善する新しい認識ベースアプローチを提案する。本モデルでは,変換器を用いた文書検索とアンサンブル手法をモデルレベルで導入し,HW-SQuADデータセットとBenthamQAデータセットにおいて,Exact Matchスコアが82.02%,69%に達した。
論文参考訳（メタデータ） (2024-06-25T10:18:50Z)
Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文参考訳（メタデータ） (2024-04-26T18:01:25Z)
Self-Supervised Representation Learning for Online Handwriting Text Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文参考訳（メタデータ） (2023-10-10T14:07:49Z)
Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文参考訳（メタデータ） (2023-08-11T17:47:54Z)
HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文参考訳（メタデータ） (2023-06-02T15:37:43Z)
Handwritten Word Recognition using Deep Learning Approach: A Novel Way of Generating Handwritten Words [14.47529728678643]
本稿では,手書き文字を用いた多様な手書き語画像を生成する手法を提案する。アプローチ全体は、大きくて多様な手書きの単語データセットを生成する過程を示している。実験では,手書きの単語データセットが欠けているBangla言語をターゲットにした。
論文参考訳（メタデータ） (2023-03-13T22:58:34Z)
Look Ma, Only 400 Samples! Revisiting the Effectiveness of Automatic N-Gram Rule Generation for Spelling Normalization in Filipino [0.0]
フィリピンのNLPアプリケーションの開発には、オンラインテキストをモデルで処理する能力が不可欠である。自動ルール抽出によるN-Gram + Damerau Levenshtein距離モデルを提案する。
論文参考訳（メタデータ） (2022-10-06T04:41:26Z)
PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文参考訳（メタデータ） (2022-09-30T11:08:39Z)
Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文参考訳（メタデータ） (2021-12-15T04:19:52Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)
Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。本手法では,クラス毎に20～30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文参考訳（メタデータ） (2020-06-27T08:13:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。