論文の概要: GazeReader: Detecting Unknown Word Using Webcam for English as a Second
Language (ESL) Learners
- arxiv url: http://arxiv.org/abs/2303.10443v1
- Date: Sat, 18 Mar 2023 15:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 19:18:39.648242
- Title: GazeReader: Detecting Unknown Word Using Webcam for English as a Second
Language (ESL) Learners
- Title(参考訳): gazereader: webcam for english as a second language (esl) learnersを用いた未知語の検出
- Authors: Jiexin Ding, Bowen Zhao, Yuqi Huang, Yuntao Wang, Yuanchun Shi
- Abstract要約: 本稿では,Webカメラのみを用いた未知語検出手法であるGazeReaderを提案する。
GazeReaderは学習者の視線を追跡し、トランスフォーマーベースの機械学習モデルを適用し、テキスト情報をエンコードして未知の単語を見つける。
- 参考スコア(独自算出の注目度): 24.009130595261123
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic unknown word detection techniques can enable new applications for
assisting English as a Second Language (ESL) learners, thus improving their
reading experiences. However, most modern unknown word detection methods
require dedicated eye-tracking devices with high precision that are not easily
accessible to end-users. In this work, we propose GazeReader, an unknown word
detection method only using a webcam. GazeReader tracks the learner's gaze and
then applies a transformer-based machine learning model that encodes the text
information to locate the unknown word. We applied knowledge enhancement
including term frequency, part of speech, and named entity recognition to
improve the performance. The user study indicates that the accuracy and
F1-score of our method were 98.09% and 75.73%, respectively. Lastly, we
explored the design scope for ESL reading and discussed the findings.
- Abstract(参考訳): 未知語の自動検出技術は、英語を第二言語(ESL)学習者として支援するための新しいアプリケーションを可能にする。
しかし、現代の未知語検出手法のほとんどは、エンドユーザが簡単にアクセスできない高精度な専用の視線追跡デバイスを必要とする。
本稿では,Webカメラのみを用いた未知語検出手法であるGazeReaderを提案する。
gazereaderは学習者の視線を追跡し、テキスト情報をエンコードして未知の単語を見つけるトランスフォーマーベースの機械学習モデルを適用する。
語句頻度,音声の一部,名前付き実体認識などの知識向上を応用し,性能改善を行った。
ユーザ調査の結果,本手法の精度は98.09%,f1-scoreは75.73%であった。
最後に,esl読解のための設計スコープを検討し,その結果について考察した。
関連論文リスト
- LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Plug-and-Play Multilingual Few-shot Spoken Words Recognition [3.591566487849146]
マルチ言語・プラグイン・アンド・プレイ型キーワードスポッティングシステムであるPLiXを提案する。
私たちの数秒のディープモデルは、20言語にまたがる数百万の1秒のオーディオクリップで学習されています。
PLiX は,1つのサポート例に限らず,新規な音声単語に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-05-03T18:58:14Z) - Weakly-supervised Fingerspelling Recognition in British Sign Language
Videos [85.61513254261523]
従来の指スペル認識法は、British Sign Language (BSL) に焦点を絞っていない
従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。
本稿では,このタスクに適応したTransformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-16T15:02:36Z) - Localized Vision-Language Matching for Open-vocabulary Object Detection [41.98293277826196]
本稿では,新しいオブジェクトクラスと既知のクラスを同時に検出することを学ぶオープンワールドオブジェクト検出手法を提案する。
これは2段階の訓練手法であり、まず位置誘導画像キャプチャマッチング技術を用いてクラスラベルを学習する。
単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。
論文 参考訳(メタデータ) (2022-05-12T15:34:37Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Spell my name: keyword boosted speech recognition [25.931897154065663]
名前や専門用語のような一般的な言葉は、会話を文脈で理解するのに重要である。
本稿では、これらの非一般的なキーワードをよりよく認識できる、単純だが強力なASR復号法を提案する。
本手法は,音響モデル予測に基づくビームサーチにおいて,与えられたキーワードの確率を高める。
本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで実証する。
論文 参考訳(メタデータ) (2021-10-06T14:16:57Z) - Spoken Term Detection Methods for Sparse Transcription in Very
Low-resource Settings [20.410074074340447]
2つの口頭言語での実験では、ターゲット言語音声のほんの数分で微調整された、事前訓練された普遍的な電話認識器が、音声語検出に使用できることが示されている。
グラフ構造における音素認識の曖昧さの表現は、低リソース音声語検出タスクにおいて高い精度を維持しながら、リコールをさらに促進できることを示す。
論文 参考訳(メタデータ) (2021-06-11T04:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。