論文の概要: ParaShoot: A Hebrew Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2109.11314v1
- Date: Thu, 23 Sep 2021 11:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 19:40:31.480050
- Title: ParaShoot: A Hebrew Question Answering Dataset
- Title(参考訳): parashoot: ヘブライ語の質問応答データセット
- Authors: Omri Keren and Omer Levy
- Abstract要約: ParaShootは現代のヘブライ語で最初の質問応答データセットである。
我々は最近リリースされたヘブライ語のためのBERTスタイルのモデルを用いて,最初のベースライン結果を提供する。
- 参考スコア(独自算出の注目度): 22.55706811131828
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: NLP research in Hebrew has largely focused on morphology and syntax, where
rich annotated datasets in the spirit of Universal Dependencies are available.
Semantic datasets, however, are in short supply, hindering crucial advances in
the development of NLP technology in Hebrew. In this work, we present
ParaShoot, the first question answering dataset in modern Hebrew. The dataset
follows the format and crowdsourcing methodology of SQuAD, and contains
approximately 3000 annotated examples, similar to other question-answering
datasets in low-resource languages. We provide the first baseline results using
recently-released BERT-style models for Hebrew, showing that there is
significant room for improvement on this task.
- Abstract(参考訳): ヘブライ語におけるNLP研究は主に形態学と構文に焦点を当てており、Universal Dependenciesの精神における豊富な注釈付きデータセットが利用可能である。
しかし、セマンティックデータセットは不足しており、ヘブライにおけるNLP技術の発展において重要な進歩を妨げる。
本稿では,現代ヘブライ語における最初の質問応答データセットであるParaShootを紹介する。
データセットはsquadのフォーマットとクラウドソーシングの方法論に従っており、約3000の注釈付き例が含まれている。
我々は,最近リリースされたヘブライ語版BERTスタイルのモデルを用いて,最初のベースライン結果を提供する。
関連論文リスト
- HeSum: a Novel Dataset for Abstractive Text Summarization in Hebrew [12.320161893898735]
HeSum(ヘサム)は、現代ヘブライ語で抽象的なテキスト要約のために設計されたベンチマークである。
HeSumは、プロが書いたヘブライ語ニュースサイトから入手した1万記事と1万記事のペアで構成されている。
言語学的分析は、ヘサムの高い抽象性とユニークな形態的課題を裏付ける。
論文 参考訳(メタデータ) (2024-06-06T09:36:14Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - ivrit.ai: A Comprehensive Dataset of Hebrew Speech for AI Research and
Development [0.0]
ivrit.aiは様々な文脈でヘブライ語の相当な要約を提供している。
このデータセットは、合法的なアクセシビリティで際立っている。
今後の取り組みは、ivrit.aiをさらに拡大し、AI研究と技術におけるヘブライ語の地位を向上することを目指している。
論文 参考訳(メタデータ) (2023-07-17T04:19:30Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - A Second Wave of UD Hebrew Treebanking and Cross-Domain Parsing [8.373151777137792]
本稿では,ヘブライ語ウィキペディアから選択したさまざまなトピックから,新たに自由なヘブライ語のUDツリーバンクを提案する。
コーパスの導入とアノテーションの品質評価に加えて,成長度に基づいて自動検証ツールをデプロイする。
我々は、最新の言語モデリングと既存のトランスフォーマーベースのアプローチの漸進的な改善を組み合わせて、UD NLPタスクにおける新しい最先端(SOTA)結果を得る。
論文 参考訳(メタデータ) (2022-10-14T14:52:07Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - AlephBERT:A Hebrew Large Pre-Trained Language Model to Start-off your
Hebrew NLP Application With [7.345047237652976]
大規模プリトレーニング言語モデル(PLM)は、言語理解技術の発展においてユビキタスになっています。
PLMを用いた英語の進歩は前例がないが、ヘブライ語でのPLMの使用の進展は少ない。
論文 参考訳(メタデータ) (2021-04-08T20:51:29Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。