論文の概要: Question Answering and Question Generation for Finnish
- arxiv url: http://arxiv.org/abs/2211.13794v1
- Date: Thu, 24 Nov 2022 20:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:09:07.554037
- Title: Question Answering and Question Generation for Finnish
- Title(参考訳): フィンランドにおける質問応答と質問生成
- Authors: Ilmari Kylli\"ainen and Roman Yangarber
- Abstract要約: フィンランド語で動作する最初のニューラルQAモデルとQGモデルを提示する。
モデルをトレーニングするために、SQuADデータセットを自動的に翻訳する。
合成データとTyDi-QAデータセットのフィンランド分割を用いて、いくつかのトランスフォーマーベースのモデルをQAとQGの両方に微調整する。
- 参考スコア(独自算出の注目度): 0.8426855646402236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in the field of language modeling have improved the
state-of-the-art in question answering (QA) and question generation (QG).
However, the development of modern neural models, their benchmarks, and
datasets for training them has mainly focused on English. Finnish, like many
other languages, faces a shortage of large QA/QG model training resources,
which has prevented experimenting with state-of-the-art QA/QG fine-tuning
methods. We present the first neural QA and QG models that work with Finnish.
To train the models, we automatically translate the SQuAD dataset and then use
normalization methods to reduce the amount of problematic data created during
the translation. Using the synthetic data, together with the Finnish partition
of the TyDi-QA dataset, we fine-tune several transformer-based models to both
QA and QG and evaluate their performance. To the best of our knowledge, the
resulting dataset is the first large-scale QA/QG resource for Finnish. This
paper also sets the initial benchmarks for Finnish-language QA and QG.
- Abstract(参考訳): 言語モデリングの分野での最近の進歩は、質問応答(QA)と質問生成(QG)の最先端性を改善している。
しかし、現代のニューラルモデル、そのベンチマーク、トレーニングのためのデータセットの開発は、主に英語に焦点を当てている。
フィンランドは他の多くの言語と同様に、大量のQA/QGモデルトレーニングリソースが不足しており、最先端のQA/QG微調整手法の実験を妨げている。
フィンランド語で動作する最初のニューラルQAモデルとQGモデルを提示する。
モデルのトレーニングには,SQuADデータセットを自動的に翻訳し,正規化手法を用いて翻訳時に発生する問題データの量を削減する。
合成データとTyDi-QAデータセットのフィンランド分割を用いて、いくつかのトランスフォーマーベースモデルをQAとQGの両方に微調整し、その性能を評価する。
我々の知る限り、得られたデータセットはフィンランド初の大規模QA/QGリソースである。
本稿では,フィンランド語qaとqgの初期ベンチマークについても述べる。
関連論文リスト
- QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Pre-trained Transformer-Based Approach for Arabic Question Answering : A
Comparative Study [0.5801044612920815]
4つの読解データセットを用いて、アラビア語のQAに対する最先端の事前学習変圧器モデルの評価を行った。
我々は, AraBERTv2-baseモデル, AraBERTv0.2-largeモデル, AraELECTRAモデルの性能を微調整し, 比較した。
論文 参考訳(メタデータ) (2021-11-10T12:33:18Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。