論文の概要: CaLMQA: Exploring culturally specific long-form question answering across 23 languages
- arxiv url: http://arxiv.org/abs/2406.17761v1
- Date: Tue, 25 Jun 2024 17:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:21:40.368544
- Title: CaLMQA: Exploring culturally specific long-form question answering across 23 languages
- Title(参考訳): CaLMQA:23言語にまたがる文化的に特定の長文質問の探索
- Authors: Shane Arora, Marzena Karpinska, Hung-Ting Chen, Ipsita Bhattacharjee, Mohit Iyyer, Eunsol Choi,
- Abstract要約: CaLMQAは23の言語にまたがる2.6Kの複雑な質問の集合である。
私たちのデータセットには、コミュニティWebフォーラムから自然に収集された質問と、ネイティブスピーカーによって書かれた質問の両方が含まれています。
我々は,新しいメトリクス CaLMScore を用いて,オープンソースモデルとクローズドソースモデル間の自動評価を行う。
- 参考スコア(独自算出の注目度): 58.18984409715615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are commonly used for long-form question answering, which requires them to generate paragraph-length answers to complex questions. While long-form QA has been well-studied in English via many different datasets and evaluation metrics, this research has not been extended to cover most other languages. To bridge this gap, we introduce CaLMQA, a collection of 2.6K complex questions spanning 23 languages, including under-resourced, rarely-studied languages such as Fijian and Kirundi. Our dataset includes both naturally-occurring questions collected from community web forums as well as questions written by native speakers, whom we hire for this purpose. Our process yields diverse, complex questions that reflect cultural topics (e.g. traditions, laws, news) and the language usage of native speakers. We conduct automatic evaluation across a suite of open- and closed-source models using our novel metric CaLMScore, which detects incorrect language and token repetitions in answers, and observe that the quality of LLM-generated answers degrades significantly for some low-resource languages. We perform human evaluation on a subset of models and see that model performance is significantly worse for culturally specific questions than for culturally agnostic questions. Our findings highlight the need for further research in LLM multilingual capabilities and non-English LFQA evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長文の質問応答に一般的に用いられ、複雑な質問に対して段落長の回答を生成する必要がある。
長い形式のQAは、多くの異なるデータセットと評価指標を通して英語でよく研究されているが、この研究は、他のほとんどの言語をカバーするように拡張されていない。
このギャップを埋めるために、我々は23の言語にまたがる2.6Kの複雑な質問のコレクションであるCaLMQAを紹介した。
私たちのデータセットには、コミュニティWebフォーラムから自然に収集された質問だけでなく、ネイティブスピーカーによって書かれた質問も含まれています。
我々のプロセスは、文化的な話題(伝統、法律、ニュースなど)と母語話者の言語使用を反映した多様で複雑な質問をもたらす。
提案手法は,解答における誤り言語やトークンの繰り返しを検知し,LLM生成した回答の品質が低リソース言語で著しく低下するのを観察する。
我々は、モデルのサブセット上で人間による評価を行い、文化的な特定の質問に対して、文化的に無知な質問よりも、モデルのパフォーマンスが著しく悪化していることを確認する。
以上の結果から,LLM多言語機能と非英語LFQA評価のさらなる研究の必要性が示唆された。
関連論文リスト
- OMoS-QA: A Dataset for Cross-Lingual Extractive Question Answering in a German Migration Context [4.39796591456426]
OMoS-QAは、信頼できる文書と手動の注釈付き回答とを組み合わせた、ドイツ語と英語の質問のデータセットである。
質問はオープンソースの大言語モデル(LLM)で自動的に生成され、回答文は群衆労働者によって選択される。
回答文の選択には高精度で低中間のリコールがあり、これは誤解を招くユーザーを避けるための好都合なトレードオフである。
論文 参考訳(メタデータ) (2024-07-22T15:40:17Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - ELQA: A Corpus of Metalinguistic Questions and Answers about English [24.006858451437534]
2つのオンラインフォーラムから集められた70k以上の質問は、文法、意味、流布、語源など幅広いトピックをカバーしている。
ほとんどのNLPデータセットとは異なり、このコーパスはメタ言語であり、言語に関する言語で構成されています。
論文 参考訳(メタデータ) (2022-05-01T04:29:50Z) - Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering
Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。
我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (2021-10-14T04:36:29Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z) - TyDi QA: A Benchmark for Information-Seeking Question Answering in
Typologically Diverse Languages [27.588857710802113]
TyDi QAは、204Kの問合せ対を持つ11の類型的多様言語をカバーする質問応答データセットである。
本稿では,観測された言語現象のデータ品質と例レベルの定性言語分析について定量的に分析する。
論文 参考訳(メタデータ) (2020-03-10T21:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。