Fugu-MT 論文翻訳(概要): CaLMQA: Exploring culturally specific long-form question answering across 23 languages

論文の概要: CaLMQA: Exploring culturally specific long-form question answering across 23 languages

arxiv url: http://arxiv.org/abs/2406.17761v3
Date: Wed, 11 Jun 2025 16:56:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:01.43332
Title: CaLMQA: Exploring culturally specific long-form question answering across 23 languages
Title（参考訳）: CaLMQA:23言語にまたがる文化的に特定の長文質問の探索
Authors: Shane Arora, Marzena Karpinska, Hung-Ting Chen, Ipsita Bhattacharjee, Mohit Iyyer, Eunsol Choi,
Abstract要約: CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
参考スコア（独自算出の注目度）: 58.18984409715615
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite rising global usage of large language models (LLMs), their ability to generate long-form answers to culturally specific questions remains unexplored in many languages. To fill this gap, we perform the first study of textual multilingual long-form QA by creating CaLMQA, a dataset of 51.7K culturally specific questions across 23 different languages. We define culturally specific questions as those that refer to concepts unique to one or a few cultures, or have different answers depending on the cultural or regional context. We obtain these questions by crawling naturally-occurring questions from community web forums in high-resource languages, and by hiring native speakers to write questions in under-resourced, rarely-studied languages such as Fijian and Kirundi. Our data collection methodologies are translation-free, enabling the collection of culturally unique questions like "Kuber iki umwami wa mbere w'uburundi yitwa Ntare?" (Kirundi; English translation: "Why was the first king of Burundi called Ntare (Lion)?"). We evaluate factuality, relevance and surface-level quality of LLM-generated long-form answers, finding that (1) for many languages, even the best models make critical surface-level errors (e.g., answering in the wrong language, repetition), especially for low-resource languages; and (2) answers to culturally specific questions contain more factual errors than answers to culturally agnostic questions -- questions that have consistent meaning and answer across many cultures. We release CaLMQA to facilitate future research in cultural and multilingual long-form QA.
Abstract（参考訳）: 大規模言語モデル(LLM)の世界的な普及にもかかわらず、文化的に特定の質問に対する長文の回答を生成する能力は、多くの言語でまだ探索されていない。このギャップを埋めるために、23の異なる言語にまたがる51.7Kの文化的特化質問のデータセットであるCaLMQAを作成することで、テキスト多言語長文QAを初めて研究する。我々は、文化的に特定の質問を、1つまたは少数の文化に固有の概念を指すもの、または文化的または地域的文脈によって異なる回答を持つものとして定義する。これらの質問は、ハイリソース言語のコミュニティWebフォーラムから自然に収集された質問をクロールし、ネイティブスピーカーを雇って、フィジアンやキルンディのような未ソースで稀に研究される言語で質問を書くことによって得られる。私たちのデータ収集手法は、翻訳のないものであり、「Kuber iki umwami wa mbere w'uburundi yitwa Ntare」のような文化的にユニークな質問の収集を可能にしている(キンンディ、英訳: "Why was the first king of Burundi called Ntare (Lion)? 我々は, LLM生成の長文回答の事実性, 関連性, 表面品質を評価し, (1) 多くの言語において, 最高のモデルでさえ, 重要な表面レベルのエラー(例えば, 間違った言語での回答, 繰り返し)を特に低リソース言語で行うこと, (2) 文化的に特異的な質問に対する回答は, 文化的に無知な質問に対する回答よりも, より事実的な誤りを含んでいること, および, 多くの文化において一貫した意味と答えを持つ質問について考察した。文化・多言語長期QAにおける今後の研究を促進するために,CaLMQAをリリースする。

関連論文リスト

MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。 MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文参考訳（メタデータ） (2025-07-23T12:56:31Z)
CALM: Unleashing the Cross-Lingual Self-Aligning Ability of Language Model Question Answering [42.92810049636768]
大規模言語モデル(LLM)は、言語固有の文化的知識と一般知識の両方を取得するために、多言語コーパスで事前訓練されている。言語モデル(CALM)の言語間知識の整合性について検討する。我々は、異なる言語間でモデルの知識を整合させるために、直接選好最適化(DPO)を用いる。
論文参考訳（メタデータ） (2025-01-30T16:15:38Z)
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文参考訳（メタデータ） (2024-10-16T16:11:49Z)
OMoS-QA: A Dataset for Cross-Lingual Extractive Question Answering in a German Migration Context [4.39796591456426]
OMoS-QAは、信頼できる文書と手動の注釈付き回答とを組み合わせた、ドイツ語と英語の質問のデータセットである。質問はオープンソースの大言語モデル(LLM)で自動的に生成され、回答文は群衆労働者によって選択される。回答文の選択には高精度で低中間のリコールがあり、これは誤解を招くユーザーを避けるための好都合なトレードオフである。
論文参考訳（メタデータ） (2024-07-22T15:40:17Z)
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。 CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。 CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文参考訳（メタデータ） (2024-06-10T01:59:00Z)
Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文参考訳（メタデータ） (2024-04-26T11:46:05Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
ELQA: A Corpus of Metalinguistic Questions and Answers about English [24.006858451437534]
2つのオンラインフォーラムから集められた70k以上の質問は、文法、意味、流布、語源など幅広いトピックをカバーしている。ほとんどのNLPデータセットとは異なり、このコーパスはメタ言語であり、言語に関する言語で構成されています。
論文参考訳（メタデータ） (2022-05-01T04:29:50Z)
Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文参考訳（メタデータ） (2021-10-14T04:36:29Z)
XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文参考訳（メタデータ） (2020-10-22T16:47:17Z)
TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages [27.588857710802113]
TyDi QAは、204Kの問合せ対を持つ11の類型的多様言語をカバーする質問応答データセットである。本稿では,観測された言語現象のデータ品質と例レベルの定性言語分析について定量的に分析する。
論文参考訳（メタデータ） (2020-03-10T21:11:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。