論文の概要: AmharicStoryQA: A Multicultural Story Question Answering Benchmark in Amharic
- arxiv url: http://arxiv.org/abs/2602.02774v1
- Date: Mon, 02 Feb 2026 20:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.071473
- Title: AmharicStoryQA: A Multicultural Story Question Answering Benchmark in Amharic
- Title(参考訳): AmharicStoryQA: Amharicのベンチマークに回答する多文化的なストーリー質問
- Authors: Israel Abebe Azime, Abenezer Kebede Angamo, Hana Mekonen Tamiru, Dagnachew Mekonnen Marilign, Philipp Slusallek, Seid Muhie Yimam, Dietrich Klakow,
- Abstract要約: 評価は一つの言語に存在する有意義な文化的変化を見落としていると論じる。
アンハラ語話者の文化的多彩な物語に基づくベンチマークであるtextbftextitAmharicStoryQAを紹介する。
- 参考スコア(独自算出の注目度): 25.361090310093072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing emphasis on multilingual and cultural evaluation benchmarks for large language models, language and culture are often treated as synonymous, and performance is commonly used as a proxy for a models understanding of a given language. In this work, we argue that such evaluations overlook meaningful cultural variation that exists within a single language. We address this gap by focusing on narratives from different regions of Ethiopia and demonstrate that, despite shared linguistic characteristics, region-specific and domain-specific content substantially influences language evaluation outcomes. To this end, we introduce \textbf{\textit{AmharicStoryQA}}, a long-sequence story question answering benchmark grounded in culturally diverse narratives from Amharic-speaking regions. Using this benchmark, we reveal a significant narrative understanding gap in existing LLMs, highlight pronounced regional differences in evaluation results, and show that supervised fine-tuning yields uneven improvements across regions and evaluation settings. Our findings emphasize the need for culturally grounded benchmarks that go beyond language-level evaluation to more accurately assess and improve narrative understanding in low-resource languages.
- Abstract(参考訳): 大規模言語モデルの多言語および文化的評価ベンチマークに重点を置いているため、言語と文化はしばしば同義語として扱われ、パフォーマンスは与えられた言語を理解するモデルのプロキシとして一般的に使用される。
本研究では,そのような評価が,一つの言語に存在する意味ある文化的変化を見落としていることを論じる。
本研究では,エチオピアの異なる地域における物語に焦点をあて,言語的特徴の共有にもかかわらず,地域固有の内容とドメイン固有の内容が言語評価に大きく影響を及ぼすことを示す。
この目的のために,アムハラ語圏の文化多様説話に根ざした長文ストーリー質問応答ベンチマークである「textbf{\textit{AmharicStoryQA}}」を紹介した。
このベンチマークを用いて,既存のLCMにおける物語理解のギャップを明らかにし,評価結果の地域差を明らかにするとともに,教師付き微調整が地域間の不均一な改善と評価設定を示す。
本研究は,低リソース言語におけるナラティブ理解をより正確に評価し,向上させるため,言語レベルの評価を超えて,文化的基盤を持つベンチマークの必要性を強調した。
関連論文リスト
- Do You Know About My Nation? Investigating Multilingual Language Models' Cultural Literacy Through Factual Knowledge [68.6805229085352]
ほとんどの多言語質問答えベンチマークは、取得した情報の地域的多様性を規定していない。
XNationQAには、9カ国の地理、文化、歴史に関する合計49,280の質問が7つの言語で提示されている。
我々はXNationQA上で8つの標準多言語LLMをベンチマークし、2つの新しい転送指標を用いて評価した。
論文 参考訳(メタデータ) (2025-11-01T18:41:34Z) - MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints [7.822567458977689]
MyCultureは、マレーシアの文化に関する大規模言語モデル(LLM)を総合的に評価するために設計されたベンチマークである。
従来のベンチマークとは異なり、MyCultureは未定義のオプションなしで、新しいオープンエンドの複数選択質問フォーマットを採用している。
構造化された出力と自由形式出力のモデル性能を比較して構造バイアスを解析し、多言語的プロンプト変動による言語バイアスを評価する。
論文 参考訳(メタデータ) (2025-08-07T14:17:43Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [37.98920430188422]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。