論文の概要: AiM: Taking Answers in Mind to Correct Chinese Cloze Tests in
Educational Applications
- arxiv url: http://arxiv.org/abs/2208.12505v1
- Date: Fri, 26 Aug 2022 08:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:33:17.677574
- Title: AiM: Taking Answers in Mind to Correct Chinese Cloze Tests in
Educational Applications
- Title(参考訳): AiM: 教育応用における中国のクローゼテストの正しさを意識して
- Authors: Yusen Zhang, Zhongli Li, Qingyu Zhou, Ziyi Liu, Chao Li, Mina Ma,
Yunbo Cao, Hongzhi Liu
- Abstract要約: 本稿では,手書き代入を自動的に修正するマルチモーダル手法を提案する。
答えの符号化された表現は、学生の筆跡の視覚情報と相互作用する。
実験の結果,AiMはOCR法よりも高い性能を示した。
- 参考スコア(独自算出の注目度): 26.610045625897275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To automatically correct handwritten assignments, the traditional approach is
to use an OCR model to recognize characters and compare them to answers. The
OCR model easily gets confused on recognizing handwritten Chinese characters,
and the textual information of the answers is missing during the model
inference. However, teachers always have these answers in mind to review and
correct assignments. In this paper, we focus on the Chinese cloze tests
correction and propose a multimodal approach (named AiM). The encoded
representations of answers interact with the visual information of students'
handwriting. Instead of predicting 'right' or 'wrong', we perform the sequence
labeling on the answer text to infer which answer character differs from the
handwritten content in a fine-grained way. We take samples of OCR datasets as
the positive samples for this task, and develop a negative sample augmentation
method to scale up the training data. Experimental results show that AiM
outperforms OCR-based methods by a large margin. Extensive studies demonstrate
the effectiveness of our multimodal approach.
- Abstract(参考訳): 手書きの代入を自動的に修正するには、OCRモデルを使って文字を認識し、答えと比較する。
ocrモデルは手書きの漢字を認識することで容易に混乱し、モデル推論中に答えのテキスト情報が失われる。
しかし、教師は常に課題の見直しと修正を念頭に置いている。
本稿では,中国のクローゼテストの修正に焦点をあて,マルチモーダルアプローチ(AiM)を提案する。
解答の符号化表現は、学生の手書きの視覚情報と相互作用する。
右」や「ラウンド」を予測する代わりに、回答テキストのシーケンスラベリングを行い、手書きの内容とどの回答キャラクタが違うのかを微妙な方法で推測する。
このタスクの正のサンプルとしてOCRデータセットのサンプルを取り、トレーニングデータをスケールアップするための負のサンプル増分法を開発した。
実験の結果,AiMはOCR法よりも高い性能を示した。
広範な研究により,マルチモーダルアプローチの有効性が実証された。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。
我々は,テキストイメージ理解をガイドする軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。
IGTRは、小さなモデルサイズと効率的な推論速度を維持しながら、既存のモデルをかなりの差で上回っている。
論文 参考訳(メタデータ) (2024-01-31T14:13:01Z) - Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。
本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。
実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文 参考訳(メタデータ) (2023-08-29T05:44:00Z) - Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to
Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。
自然言語処理(NLP)技術を用いた新しい手法を提案する。
与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文 参考訳(メタデータ) (2023-06-13T20:34:55Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Handwriting recognition and automatic scoring for descriptive answers in
Japanese language tests [7.489722641968594]
本報告では, 大学入試試験における手書き記述回答の自動評価実験について述べる。
すべての答えは人間の検査官によって採点されているが、手書き文字はラベル付けされていない。
我々は、ラベル付き手書きデータセットで訓練されたディープニューラルネットワークベースの手書き文字認識器を、このラベル付き回答セットに適応させようと試みる。
論文 参考訳(メタデータ) (2022-01-10T08:47:52Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。