論文の概要: Rethinking Annotation: Can Language Learners Contribute?
- arxiv url: http://arxiv.org/abs/2210.06828v2
- Date: Mon, 29 May 2023 11:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 03:24:03.567037
- Title: Rethinking Annotation: Can Language Learners Contribute?
- Title(参考訳): アノテーションの再考: 言語学習者は貢献できるのか?
- Authors: Haneul Yoo, Rifki Afina Putri, Changyoon Lee, Youngin Lee, So-Yeon
Ahn, Dongyeop Kang, Alice Oh
- Abstract要約: 本稿では,言語学習者がベンチマークデータセットにアノテーションを貢献できるかどうかを検討する。
我々は、英語、韓国語、インドネシア語という3つの言語と、感情分析、自然言語推論、名前付きエンティティ認識、機械読解の4つのNLPタスクをターゲットにしている。
言語学習者、特に中級または上級の言語習熟度を持つ者は、追加資源の助けを借りてかなり正確なラベルを提供することができる。
- 参考スコア(独自算出の注目度): 13.882919101548811
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Researchers have traditionally recruited native speakers to provide
annotations for widely used benchmark datasets. However, there are languages
for which recruiting native speakers can be difficult, and it would help to
find learners of those languages to annotate the data. In this paper, we
investigate whether language learners can contribute annotations to benchmark
datasets. In a carefully controlled annotation experiment, we recruit 36
language learners, provide two types of additional resources (dictionaries and
machine-translated sentences), and perform mini-tests to measure their language
proficiency. We target three languages, English, Korean, and Indonesian, and
the four NLP tasks of sentiment analysis, natural language inference, named
entity recognition, and machine reading comprehension. We find that language
learners, especially those with intermediate or advanced levels of language
proficiency, are able to provide fairly accurate labels with the help of
additional resources. Moreover, we show that data annotation improves learners'
language proficiency in terms of vocabulary and grammar. One implication of our
findings is that broadening the annotation task to include language learners
can open up the opportunity to build benchmark datasets for languages for which
it is difficult to recruit native speakers.
- Abstract(参考訳): 研究者は伝統的に、広く使われているベンチマークデータセットにアノテーションを提供するためにネイティブスピーカーを募集してきた。
しかし、ネイティブ話者を募集する言語は困難であり、それらの言語の学習者がデータに注釈をつけるのに役立つだろう。
本稿では,言語学習者がベンチマークデータセットにアノテーションを貢献できるかどうかを検討する。
慎重に制御されたアノテーション実験では、36人の言語学習者を募集し、2種類の追加リソース(辞書と機械翻訳文)を提供し、言語習熟度を測定するミニテストを行う。
我々は、英語、韓国語、インドネシア語という3つの言語と、感情分析、自然言語推論、エンティティ認識、機械読解の4つのNLPタスクをターゲットにしている。
言語学習者、特に中級または上級の言語習熟度を持つ者は、追加資源の助けを借りてかなり正確なラベルを提供することができる。
さらに,データアノテーションは語彙や文法の観点から学習者の言語能力を向上させることを示す。
私たちの発見の1つの意味は、言語学習者を含むアノテーションタスクを拡張することで、ネイティブ話者の募集が困難である言語のためのベンチマークデータセットを構築する機会を開放できるということです。
関連論文リスト
- Large Language Model Augmented Exercise Retrieval for Personalized
Language Learning [2.946562343070891]
ベクトル類似性アプローチは,学習者が学習したいことを表現するために使用するエクササイズコンテンツと言語との関係を,不十分に捉えていることがわかった。
我々は,学習者の入力に基づいて仮説的演習を合成することにより,大きな言語モデルの生成能力を活用してギャップを埋める。
我々はmHyERと呼ぶアプローチを,(1)学習における関連ラベルの欠如,(2)制限なし学習者の入力内容,(3)入力候補と検索候補とのセマンティックな類似性の低さという3つの課題を克服する。
論文 参考訳(メタデータ) (2024-02-08T20:35:31Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Weakly-supervised Deep Cognate Detection Framework for Low-Resourced
Languages Using Morphological Knowledge of Closely-Related Languages [1.7622337807395716]
アンダーリソース言語でのトランスファーラーニングのためのコニャートを爆発させることは、言語理解タスクのエキサイティングな機会である。
従来のアプローチは主に、正書法、音声学、あるいは最先端の文脈言語モデルに基づくコグネート検出タスクの監督に重点を置いていた。
本稿では、アンダーリソース言語に対する言語に依存しない弱教師付き深層コグネート検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-09T05:46:41Z) - Teacher Perception of Automatically Extracted Grammar Concepts for L2
Language Learning [66.79173000135717]
本研究は、カンナダ語とマラティ語という2つのインドの言語教育に適用する。
我々は、形態素構文(単語順、一致、ケースマーキング、または単語形成の学習)と意味論(語彙の学習)に関する疑問に答える自然なテキストコーパスから記述を抽出する。
我々は,北米の学校から言語教育者の助けを借りて手作業による評価を行い,教材が授業の準備や学習者評価に利用できる可能性を見出した。
論文 参考訳(メタデータ) (2023-10-27T18:17:29Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Toward More Meaningful Resources for Lower-resourced Languages [2.3513645401551333]
Wikidataに格納されているいくつかの低リソース言語の名前の内容について検討する。
WikiAnnにある品質問題について議論し、手書きのアノテートデータに有用なサプリメントであるかどうかを評価する。
資源開発に関する推奨ガイドラインをまとめる。
論文 参考訳(メタデータ) (2022-02-24T18:39:57Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。