論文の概要: ELQA: A Corpus of Metalinguistic Questions and Answers about English
- arxiv url: http://arxiv.org/abs/2205.00395v2
- Date: Mon, 3 Jul 2023 17:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 16:18:49.965570
- Title: ELQA: A Corpus of Metalinguistic Questions and Answers about English
- Title(参考訳): ELQA:英語に関するメタ言語学的質問と回答コーパス
- Authors: Shabnam Behzad, Keisuke Sakaguchi, Nathan Schneider, Amir Zeldes
- Abstract要約: 2つのオンラインフォーラムから集められた70k以上の質問は、文法、意味、流布、語源など幅広いトピックをカバーしている。
ほとんどのNLPデータセットとは異なり、このコーパスはメタ言語であり、言語に関する言語で構成されています。
- 参考スコア(独自算出の注目度): 24.006858451437534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present ELQA, a corpus of questions and answers in and about the English
language. Collected from two online forums, the >70k questions (from English
learners and others) cover wide-ranging topics including grammar, meaning,
fluency, and etymology. The answers include descriptions of general properties
of English vocabulary and grammar as well as explanations about specific
(correct and incorrect) usage examples. Unlike most NLP datasets, this corpus
is metalinguistic -- it consists of language about language. As such, it can
facilitate investigations of the metalinguistic capabilities of NLU models, as
well as educational applications in the language learning domain. To study
this, we define a free-form question answering task on our dataset and conduct
evaluations on multiple LLMs (Large Language Models) to analyze their capacity
to generate metalinguistic answers.
- Abstract(参考訳): 本稿では,英語に関する質問と回答のコーパスであるELQAを紹介する。
2つのオンラインフォーラムから集められた70k以上の質問(英語学習者など)は、文法、意味、流布、語源など幅広いトピックをカバーしている。
この回答には、英語の語彙と文法の一般的な性質の説明や、特定の(正しくない)使用例の説明が含まれる。
ほとんどのNLPデータセットとは異なり、このコーパスはメタ言語であり、言語に関する言語で構成されています。
そのため、NLUモデルのメタ言語的能力や、言語学習分野における教育的応用の解明が容易となる。
そこで本研究では,自由形式の質問応答タスクをデータセット上で定義し,複数のllm (large language model) 上で評価を行い,メタリング的回答を生成する能力を分析する。
関連論文リスト
- How to Engage Your Readers? Generating Guiding Questions to Promote Active Reading [60.19226384241482]
教科書や科学論文から10Kのインテキスト質問のデータセットであるGuidingQを紹介した。
言語モデルを用いてこのような質問を生成するための様々なアプローチを探索する。
我々は、そのような質問が読解に与える影響を理解するために、人間の研究を行う。
論文 参考訳(メタデータ) (2024-07-19T13:42:56Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。
我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。
様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ [16.637598165238934]
大規模言語モデル(LLM)は、世界中の英語話者の大多数を含むすべての人にサービスを提供する必要がある。
近年の研究では、意図した用途に制限があるにもかかわらず、多くの言語でLSMを促すことが示されている。
我々は、27.4kのテスト質問に答える基本的なオープンエンド質問のための新しい銀標準ベンチマークであるMultiQを紹介する。
論文 参考訳(メタデータ) (2024-03-06T16:01:44Z) - Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - How Do We Answer Complex Questions: Discourse Structure of Long-form
Answers [51.973363804064704]
3つのデータセットから収集した長文回答の機能構造について検討した。
私たちの主な目標は、人間が複雑な答えを作るためにどのように情報を整理するかを理解することです。
我々の研究は、長期QAシステムの談話レベルのモデリングと評価に関する将来の研究に刺激を与えることができる。
論文 参考訳(メタデータ) (2022-03-21T15:14:10Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - TyDi QA: A Benchmark for Information-Seeking Question Answering in
Typologically Diverse Languages [27.588857710802113]
TyDi QAは、204Kの問合せ対を持つ11の類型的多様言語をカバーする質問応答データセットである。
本稿では,観測された言語現象のデータ品質と例レベルの定性言語分析について定量的に分析する。
論文 参考訳(メタデータ) (2020-03-10T21:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。