論文の概要: SC-Ques: A Sentence Completion Question Dataset for English as a Second
Language Learners
- arxiv url: http://arxiv.org/abs/2206.12036v1
- Date: Fri, 24 Jun 2022 02:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 03:11:59.313037
- Title: SC-Ques: A Sentence Completion Question Dataset for English as a Second
Language Learners
- Title(参考訳): SC-Ques:第二言語学習者のための文補完質問データセット
- Authors: Qiongqiong Liu, Shuyan Huang, Zitao Liu, Weiqi Luo
- Abstract要約: 文完成 (SC) 質問は、1つ以上の空白を埋める必要のある文を示し、3つから5つの単語やフレーズをオプションとして提示する。
実世界の標準英語試験から292,517のESL SC質問からなる大規模SCデータセット textscSC-Ques を提示する。
- 参考スコア(独自算出の注目度): 20.892188000744238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentence completion (SC) questions present a sentence with one or more blanks
that need to be filled in, three to five possible words or phrases as options.
SC questions are widely used for students learning English as a Second Language
(ESL). In this paper, we present a large-scale SC dataset, \textsc{SC-Ques},
which is made up of 292,517 ESL SC questions from real-world standardized
English examinations. Furthermore, we build a comprehensive benchmark of
automatically solving the SC questions by training the large-scale pre-trained
language models on the proposed \textsc{SC-Ques} dataset. We conduct detailed
analysis of the baseline models performance, limitations and trade-offs. The
data and our code are available for research purposes from:
\url{https://github.com/ai4ed/SC-Ques}.
- Abstract(参考訳): 文完成 (SC) 質問は、1つ以上の空白を埋める必要のある文を示し、3つから5つの単語やフレーズをオプションとして提示する。
SC質問は英語を第二言語として学習する学生に広く使われている。
本稿では,実世界の標準英語試験から292,517のESL SC質問からなる大規模SCデータセット \textsc{SC-Ques} を提案する。
さらに,提案した \textsc{SC-Ques} データセット上で,大規模事前学習言語モデルをトレーニングすることにより,SC 質問を自動的に解くための総合ベンチマークを構築した。
我々は、ベースラインモデルの性能、限界、トレードオフに関する詳細な分析を行う。
データと私たちのコードは、以下の研究目的で利用可能です。
関連論文リスト
- ConCSE: Unified Contrastive Learning and Augmentation for Code-Switched Embeddings [4.68732641979009]
本稿では、2つの言語が1つの発話の中で交わるコードスイッチング(CS)現象について検討する。
我々は、他の言語におけるCSの現在の等価制約(EC)理論は、部分的にしか英語と韓国のCSの複雑さを捉えていないことを強調した。
我々は,このような課題を緩和するために,英語と韓国のCSシナリオに適した新しいKoglishデータセットを提案する。
論文 参考訳(メタデータ) (2024-08-28T11:27:21Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - English Contrastive Learning Can Learn Universal Cross-lingual Sentence
Embeddings [77.94885131732119]
共通言語間文埋め込みは意味的に類似した言語間文を共有埋め込み空間にマッピングする。
そこで本研究では,SimCSEを多言語設定に拡張したmSimCSEを提案する。
論文 参考訳(メタデータ) (2022-11-11T11:17:56Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Investigating Post-pretraining Representation Alignment for
Cross-Lingual Question Answering [20.4489424966613]
言語間質問応答システムにおける多言語事前学習言語モデルの能力について検討する。
言語間の表現をポストホックな微調整のステップで明示的に整合させると、一般的にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-09-24T15:32:45Z) - Solving ESL Sentence Completion Questions via Pre-trained Neural
Language Models [33.41201869566935]
文完成(SC)質問は1つ以上の空白を埋める文を提示する。
本稿では,事前学習型言語モデルを用いて,英語試験におけるSC質問を解決するニューラルネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-15T05:01:39Z) - Conversations with Search Engines: SERP-based Conversational Response
Generation [77.1381159789032]
我々は、検索エンジンと対話するためのパイプラインを開発するために、適切なデータセット、検索・アズ・ア・会話(SaaC)データセットを作成します。
また、このデータセットを用いて、検索エンジンと対話するための最先端パイプライン(Conversations with Search Engines (CaSE))も開発しています。
CaSEは、サポートされたトークン識別モジュールとプリア・アウェア・ポインタージェネレータを導入することで最先端を向上する。
論文 参考訳(メタデータ) (2020-04-29T13:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。