論文の概要: Alloprof: a new French question-answer education dataset and its use in
an information retrieval case study
- arxiv url: http://arxiv.org/abs/2302.07738v2
- Date: Fri, 14 Apr 2023 13:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 16:17:38.890625
- Title: Alloprof: a new French question-answer education dataset and its use in
an information retrieval case study
- Title(参考訳): alloprof: フランスの新しい質問応答型教育データセットとその情報検索事例研究への応用
- Authors: Antoine Lefebvre-Brossard, Stephane Gazaille, Michel C. Desmarais
- Abstract要約: ケベックに本拠を置くヘルプサイトであるAlloprofから,フランスの新たな公開質問回答データセットを紹介した。
このデータセットは、29の349の質問と10人の368人の学生の様々な学年における説明を含んでいる。
関連する文書を予測するため、事前訓練されたBERTモデルを用いたアーキテクチャを微調整し、評価した。
- 参考スコア(独自算出の注目度): 0.13750624267664155
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Teachers and students are increasingly relying on online learning resources
to supplement the ones provided in school. This increase in the breadth and
depth of available resources is a great thing for students, but only provided
they are able to find answers to their queries. Question-answering and
information retrieval systems have benefited from public datasets to train and
evaluate their algorithms, but most of these datasets have been in English text
written by and for adults. We introduce a new public French question-answering
dataset collected from Alloprof, a Quebec-based primary and high-school help
website, containing 29 349 questions and their explanations in a variety of
school subjects from 10 368 students, with more than half of the explanations
containing links to other questions or some of the 2 596 reference pages on the
website. We also present a case study of this dataset in an information
retrieval task. This dataset was collected on the Alloprof public forum, with
all questions verified for their appropriateness and the explanations verified
both for their appropriateness and their relevance to the question. To predict
relevant documents, architectures using pre-trained BERT models were fine-tuned
and evaluated. This dataset will allow researchers to develop
question-answering, information retrieval and other algorithms specifically for
the French speaking education context. Furthermore, the range of language
proficiency, images, mathematical symbols and spelling mistakes will
necessitate algorithms based on a multimodal comprehension. The case study we
present as a baseline shows an approach that relies on recent techniques
provides an acceptable performance level, but more work is necessary before it
can reliably be used and trusted in a production setting.
- Abstract(参考訳): 教師と生徒は、学校で提供されるものを補うために、オンライン学習リソースをますます頼りにしている。
利用可能なリソースの広さと深さの増大は、学生にとって素晴らしいことですが、クエリに対する回答を見つけることができるのは彼らだけです。
質問応答と情報検索システムは、アルゴリズムを訓練し評価するために、公開データセットから恩恵を受けてきたが、これらのデータセットのほとんどは、大人向けの英語テキストで書かれている。
ケベック州に本拠を置く小学校・高校のヘルプサイトalloprofから収集した,フランスの公開質問応答データセットを紹介し,29,349の質問とその説明を10,368人の学生から収集し,その半数以上が他の質問へのリンクやウェブサイト上の2,596の参考ページを含む。
また、情報検索タスクにおいて、このデータセットのケーススタディを示す。
このデータセットは、alloprof public forumで収集され、すべての質問が適切性について検証され、説明は、その適切性と質問との関連性の両方について検証された。
関連する文書を予測するため、事前訓練されたBERTモデルを用いたアーキテクチャを微調整し、評価した。
このデータセットは、研究者がフランス語の教育コンテキストに特化した質問回答、情報検索、その他のアルゴリズムを開発することを可能にする。
さらに、言語習熟度、画像、数学的記号、スペルミスの範囲は、マルチモーダル理解に基づくアルゴリズムを必要とする。
私たちがベースラインとして提示するケーススタディは、最近の技術に依存するアプローチが許容できるパフォーマンスレベルを提供することを示しているが、プロダクション環境で確実に使用および信頼性を得るためには、より多くの作業が必要である。
関連論文リスト
- DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - Large Language Models Meet Knowledge Graphs to Answer Factoid Questions [57.47634017738877]
本稿では,知識グラフから追加情報に富んだ事前学習されたテキスト・テキスト言語モデルを探索する手法を提案する。
抽出した部分グラフの線形化によりトランスフォーマーモデルで容易に情報を得る。
抽出された情報で回答候補を最終ランク付けすると、事前訓練されたテキスト-テキスト言語モデルのHits@1スコアが4-6%向上する。
論文 参考訳(メタデータ) (2023-10-03T15:57:00Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - EduQG: A Multi-format Multiple Choice Dataset for the Educational Domain [20.801638768447948]
このデータセットには、複数の選択質問、回答(イントラクタを含む)、教育領域からのソースドキュメントの3,397のサンプルが含まれている。
各質問はノーマルとクローズの2つの形式で表現される。正しい回答は、文レベルのアノテーションでソース文書にリンクされる。
すべての質問は、クラウドワーカーではなく、教育と学習の標準を確実に維持するために、教育専門家によって作成されました。
論文 参考訳(メタデータ) (2022-10-12T11:28:34Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - English Machine Reading Comprehension Datasets: A Survey [13.767812547998735]
質問文や回答形式に応じてデータセットを分類し,サイズ,語彙,データソース,生成方法,人的パフォーマンスレベル,質問語など,さまざまな領域で比較する。
分析の結果、wikipediaは最も一般的なデータソースであり、データセットにまたがる質問の理由、時期、場所が比較的不足していることが分かりました。
論文 参考訳(メタデータ) (2021-01-25T21:15:06Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Educational Question Mining At Scale: Prediction, Analysis and
Personalization [35.42197158180065]
大規模に教育的な問題から洞察を抽出する枠組みを提案する。
我々は最先端のベイズ深層学習法、特に部分変分オートエンコーダ(p-VAE)を利用する。
提案したフレームワークを,数万の質問と数千万の回答をオンライン教育プラットフォームから収集した実世界のデータセットに適用する。
論文 参考訳(メタデータ) (2020-03-12T19:07:49Z) - Teaching a New Dog Old Tricks: Resurrecting Multilingual Retrieval Using
Zero-shot Learning [30.868309879441615]
我々は、事前訓練された多言語言語モデルを利用して、英語コレクションで訓練された検索システムを非英語クエリや文書に転送することで、データの欠如に対処する。
提案手法は,アラビア語,中国語,スペイン語の教師なし検索手法を著しく上回りうることを示す。
論文 参考訳(メタデータ) (2019-12-30T20:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。