論文の概要: AfriQA: Cross-lingual Open-Retrieval Question Answering for African
Languages
- arxiv url: http://arxiv.org/abs/2305.06897v1
- Date: Thu, 11 May 2023 15:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 14:13:51.975389
- Title: AfriQA: Cross-lingual Open-Retrieval Question Answering for African
Languages
- Title(参考訳): AfriQA: アフリカの言語に対する言語横断のオープン検索質問
- Authors: Odunayo Ogundepo, Tajuddeen R. Gwadabe, Clara E. Rivera, Jonathan H.
Clark, Sebastian Ruder, David Ifeoluwa Adelani, Bonaventure F. P. Dossou,
Abdou Aziz DIOP, Claytone Sikasote, Gilles Hacheme, Happy Buzaaba, Ignatius
Ezeani, Rooweither Mabuya, Salomey Osei, Chris Emezue, Albert Njoroge Kahira,
Shamsuddeen H. Muhammad, Akintunde Oladipo, Abraham Toluwase Owodunni, Atnafu
Lambebo Tonja, Iyanuoluwa Shode, Akari Asai, Tunde Oluwaseyi Ajayi, Clemencia
Siro, Steven Arthur, Mofetoluwa Adeyemi, Orevaoghene Ahia, Aremu Anuoluwapo,
Oyinkansola Awosan, Chiamaka Chukwuneke, Bernard Opoku, Awokoya Ayodele,
Verrah Otiende, Christine Mwase, Boyd Sinkala, Andre Niyongabo Rubungo,
Daniel A. Ajisafe, Emeka Felix Onwuegbuzia, Habib Mbow, Emile Niyomutabazi,
Eunice Mukonde, Falalu Ibrahim Lawan, Ibrahim Said Ahmad, Jesujoba O. Alabi,
Martin Namukombo, Mbonu Chinedu, Mofya Phiri, Neo Putini, Ndumiso Mngoma,
Priscilla A. Amuok, Ruqayya Nasir Iro, Sonia Adhiambo34
- Abstract要約: XOR QAシステムは、母国語の人々に仕えながら、他言語からの回答内容を検索する。
AfriQAはアフリカ言語に焦点を当てた最初の言語間QAデータセットです。
AfriQAには10言語にわたる12,000以上のXOR QAサンプルが含まれている。
- 参考スコア(独自算出の注目度): 18.689806554953236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: African languages have far less in-language content available digitally,
making it challenging for question answering systems to satisfy the information
needs of users. Cross-lingual open-retrieval question answering (XOR QA)
systems -- those that retrieve answer content from other languages while
serving people in their native language -- offer a means of filling this gap.
To this end, we create AfriQA, the first cross-lingual QA dataset with a focus
on African languages. AfriQA includes 12,000+ XOR QA examples across 10 African
languages. While previous datasets have focused primarily on languages where
cross-lingual QA augments coverage from the target language, AfriQA focuses on
languages where cross-lingual answer content is the only high-coverage source
of answer content. Because of this, we argue that African languages are one of
the most important and realistic use cases for XOR QA. Our experiments
demonstrate the poor performance of automatic translation and multilingual
retrieval methods. Overall, AfriQA proves challenging for state-of-the-art QA
models. We hope that the dataset enables the development of more equitable QA
technology.
- Abstract(参考訳): アフリカの言語は、デジタルで利用できる言語コンテンツがはるかに少ないため、質問応答システムがユーザの情報ニーズを満たすことは困難である。
xor qa(cross-lingual open-retrieval question answering)システム -- 他の言語から回答コンテンツを検索し、ネイティブ言語で人々にサービスを提供する — は、このギャップを埋める手段を提供する。
この目的のために、アフリカ言語に焦点を当てた最初の言語間QAデータセットであるAfriQAを作成しました。
AfriQAには10言語にわたる12,000以上のXOR QAサンプルが含まれている。
以前のデータセットは、主に言語間QAが対象言語からカバレッジを拡大する言語に焦点を当てていたが、AfriQAは、言語間QAコンテンツが唯一のハイカバレッジな回答コンテンツソースである言語に焦点を当てている。
このため、アフリカ言語はXOR QAにとって最も重要かつ現実的なユースケースの1つであると論じる。
本実験は,自動翻訳と多言語検索手法の性能の低下を実証する。
全体として、AfriQAは最先端のQAモデルでは難しい。
このデータセットがより公平なQA技術の開発を可能にすることを願っている。
関連論文リスト
- INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。
我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。
様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Bridging the Language Gap: Knowledge Injected Multilingual Question
Answering [19.768708263635176]
本稿では,異なる言語を理解するモデルの能力を高めるために,一般化された言語間移動フレームワークを提案する。
実世界のデータセット MLQA に対する実験結果から,提案手法は大きなマージンで性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-04-06T15:41:25Z) - Cross-Lingual QA as a Stepping Stone for Monolingual Open QA in
Icelandic [0.0]
英語以外の言語に対して効果的な質問応答(オープンQA)システムを構築することは困難である。
本稿では、そのようなシステムを英語以外の言語でブートストラップする方法を提案する。
我々のアプローチでは、機械翻訳データと少なくともバイリンガル言語モデルとともに、与えられた言語における限られたQAリソースしか必要としません。
論文 参考訳(メタデータ) (2022-07-05T09:52:34Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering
Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。
我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (2021-10-14T04:36:29Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。