論文の概要: CaLMQA: Exploring culturally specific long-form question answering across 23 languages
- arxiv url: http://arxiv.org/abs/2406.17761v2
- Date: Wed, 3 Jul 2024 16:33:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 19:03:22.815554
- Title: CaLMQA: Exploring culturally specific long-form question answering across 23 languages
- Title(参考訳): CaLMQA:23言語にまたがる文化的に特定の長文質問の探索
- Authors: Shane Arora, Marzena Karpinska, Hung-Ting Chen, Ipsita Bhattacharjee, Mohit Iyyer, Eunsol Choi,
- Abstract要約: CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
- 参考スコア(独自算出の注目度): 58.18984409715615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are used for long-form question answering (LFQA), which requires them to generate paragraph-length answers to complex questions. While LFQA has been well-studied in English, this research has not been extended to other languages. To bridge this gap, we introduce CaLMQA, a collection of 1.5K complex culturally specific questions spanning 23 languages and 51 culturally agnostic questions translated from English into 22 other languages. We define culturally specific questions as those uniquely or more likely to be asked by people from cultures associated with the question's language. We collect naturally-occurring questions from community web forums and hire native speakers to write questions to cover under-resourced, rarely-studied languages such as Fijian and Kirundi. Our dataset contains diverse, complex questions that reflect cultural topics (e.g. traditions, laws, news) and the language usage of native speakers. We automatically evaluate a suite of open- and closed-source models on CaLMQA by detecting incorrect language and token repetitions in answers, and observe that the quality of LLM-generated answers degrades significantly for some low-resource languages. Lastly, we perform human evaluation on a subset of models and languages. Manual evaluation reveals that model performance is significantly worse for culturally specific questions than for culturally agnostic questions. Our findings highlight the need for further research in non-English LFQA and provide an evaluation framework.
- Abstract(参考訳): 大きな言語モデル(LLM)は、長い形式の質問応答(LFQA)に使われ、複雑な質問に対する段落長の回答を生成する必要がある。
LFQAは英語でよく研究されているが、この研究は他の言語にも拡張されていない。
このギャップを埋めるために、我々は、23の言語にまたがる1.5Kの複雑な文化的特異な質問と、51の文化的無知な質問を英語から22の言語に翻訳したCaLMQAを紹介します。
我々は、文化的に特定の質問を、質問の言語に関連する文化の人々から、独自に、あるいはより多く尋ねられるものとして定義する。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未公開で稀に研究される言語をカバーする質問を書きます。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブ話者の言語使用を反映した、多種多様な複雑な質問が含まれています。
誤答やトークンの繰り返しを検出することで,CaLMQA上のオープンソースモデルとクローズドソースモデルを自動的に評価し,低リソース言語ではLLM生成の回答の品質が著しく低下するのを観察する。
最後に、モデルと言語のサブセット上で人間による評価を行う。
手動による評価は、文化的に無知な質問よりも、文化的に特定の質問に対して、モデルのパフォーマンスが著しく悪化していることを明らかにする。
本研究は,非英語LFQAのさらなる研究の必要性を強調し,評価フレームワークを提供する。
関連論文リスト
- OMoS-QA: A Dataset for Cross-Lingual Extractive Question Answering in a German Migration Context [4.39796591456426]
OMoS-QAは、信頼できる文書と手動の注釈付き回答とを組み合わせた、ドイツ語と英語の質問のデータセットである。
質問はオープンソースの大言語モデル(LLM)で自動的に生成され、回答文は群衆労働者によって選択される。
回答文の選択には高精度で低中間のリコールがあり、これは誤解を招くユーザーを避けるための好都合なトレードオフである。
論文 参考訳(メタデータ) (2024-07-22T15:40:17Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - ELQA: A Corpus of Metalinguistic Questions and Answers about English [24.006858451437534]
2つのオンラインフォーラムから集められた70k以上の質問は、文法、意味、流布、語源など幅広いトピックをカバーしている。
ほとんどのNLPデータセットとは異なり、このコーパスはメタ言語であり、言語に関する言語で構成されています。
論文 参考訳(メタデータ) (2022-05-01T04:29:50Z) - Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering
Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。
我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (2021-10-14T04:36:29Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z) - TyDi QA: A Benchmark for Information-Seeking Question Answering in
Typologically Diverse Languages [27.588857710802113]
TyDi QAは、204Kの問合せ対を持つ11の類型的多様言語をカバーする質問応答データセットである。
本稿では,観測された言語現象のデータ品質と例レベルの定性言語分析について定量的に分析する。
論文 参考訳(メタデータ) (2020-03-10T21:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。