論文の概要: SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2406.14425v2
- Date: Tue, 25 Jun 2024 13:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 19:19:57.971469
- Title: SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages
- Title(参考訳): SynDARin:低リソース言語における自動推論のためのデータセットの合成
- Authors: Gayane Ghazaryan, Erik Arakelyan, Pasquale Minervini, Isabelle Augenstein,
- Abstract要約: 質問回答データセットは、コレクションと手動アノテーションのコストと難しさのため、英語以外の言語では不十分である。
低リソース言語向けQAデータセットの生成と検証を行う方法である$textbfS$yn$textbfDAR$inを提案する。
- 参考スコア(独自算出の注目度): 44.85501254683431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question Answering (QA) datasets have been instrumental in developing and evaluating Large Language Model (LLM) capabilities. However, such datasets are scarce for languages other than English due to the cost and difficulties of collection and manual annotation. This means that producing novel models and measuring the performance of multilingual LLMs in low-resource languages is challenging. To mitigate this, we propose $\textbf{S}$yn$\textbf{DAR}$in, a method for generating and validating QA datasets for low-resource languages. We utilize parallel content mining to obtain $\textit{human-curated}$ paragraphs between English and the target language. We use the English data as context to $\textit{generate}$ synthetic multiple-choice (MC) question-answer pairs, which are automatically translated and further validated for quality. Combining these with their designated non-English $\textit{human-curated}$ paragraphs form the final QA dataset. The method allows to maintain the content quality, reduces the likelihood of factual errors, and circumvents the need for costly annotation. To test the method, we created a QA dataset with $1.2$K samples for the Armenian language. The human evaluation shows that $98\%$ of the generated English data maintains quality and diversity in the question types and topics, while the translation validation pipeline can filter out $\sim70\%$ of data with poor quality. We use the dataset to benchmark state-of-the-art LLMs, showing their inability to achieve human accuracy with some model performances closer to random chance. This shows that the generated dataset is non-trivial and can be used to evaluate reasoning capabilities in low-resource language.
- Abstract(参考訳): QAデータセットは、LLM(Large Language Model)の機能の開発と評価に役立っている。
しかし、このようなデータセットは、収集と手作業によるアノテーションのコストと難しさのため、英語以外の言語では不十分である。
これは、低リソース言語における新しいモデルの作成と多言語LLMの性能の測定が困難であることを意味する。
これを軽減するために、低リソース言語向けのQAデータセットの生成と検証を行うメソッドである$\textbf{S}$yn$\textbf{DAR}$inを提案する。
並列コンテンツマイニングを用いて、英語と対象言語の間の$\textit{ Human-curated}$パラグラフを得る。
我々は、英語データを文脈として、$\textit{generate}$ Synthetic Multiple-Awer pairs(MC)に使用する。
これらは、指定されていない$\textit{human-curated}$パラグラフと組み合わせることで、最終的なQAデータセットを形成する。
この方法では、コンテンツ品質の維持、事実エラーの可能性を低減し、コストのかかるアノテーションの必要性を回避することができる。
この手法をテストするために、アルメニア語のための12ドルのサンプルを持つQAデータセットを作成しました。
人間の評価では、生成された英語データの9,8\%が質問の種類やトピックの品質と多様性を維持しており、翻訳検証パイプラインは品質の悪いデータの$\sim70\%をフィルタリングすることができる。
我々は、このデータセットを用いて最先端のLCMをベンチマークし、ランダムな確率に近いモデル性能で人間の精度を達成できないことを示す。
これは、生成されたデータセットが非自明であり、低リソース言語の推論能力を評価するために使用できることを示している。
関連論文リスト
- A Fundamental Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
汎用言語モデルとその整列バージョンが与えられた場合、一般的な言語モデルの下では、平均報酬と平均ログライクな文字列の間にトレードオフが存在する。
この問題を形式的に処理し、サンプリングアダプタの選択が、報酬と交換する可能性の選択を可能にすることを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using Adversarial Training [19.173992333194683]
パラフレーズ(英: Paraphrase)とは、異なる単語や文構造を用いて同じ意味を伝えるテキストである。
これまでの研究は機械翻訳の知識を活用し、ゼロショット機械翻訳によるパラフレーズを同じ言語で生成してきた。
単言語データセットが人間に似た多文を生成するのに十分である最初の教師なし多言語パラフレーズモデル LAMPAT を提案する。
論文 参考訳(メタデータ) (2024-01-09T04:19:16Z) - Leveraging Closed-Access Multilingual Embedding for Automatic Sentence
Alignment in Low Resource Languages [2.4023321876826462]
クローズドアクセスのCohere多言語埋め込みを慎重に活用する,単純だが定性的な並列文整合器を提案する。
提案されたアプローチはFLORESとMAFAND-MTで94.96ドルと54.83ドルのf1スコアを獲得し、それぞれ3.64ドルと0.64ドルのLASERを獲得した。
また,MAFAND-MTを用いて翻訳モデルのトレーニングを行った場合,LASERよりも5 BLEUスコアが向上した。
論文 参考訳(メタデータ) (2023-11-20T20:48:25Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。