論文の概要: No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding
- arxiv url: http://arxiv.org/abs/2602.03709v1
- Date: Tue, 03 Feb 2026 16:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.576774
- Title: No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding
- Title(参考訳): 文化へのショートカットなし:インドネシアのマルチホップ質問が複雑な文化的理解に答える
- Authors: Vynska Amalia Permadi, Xingwei Tan, Nafise Sadat Moosavi, Nikos Aletras,
- Abstract要約: 我々は,大規模な言語モデルの文化的理解を評価するための,最初の大規模マルチホップQAデータセットであるID-MoCQAを紹介する。
単一ホップの文化的質問を6つの手がかり型にまたがるマルチホップ推論チェーンに変換する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 10.749595729794692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding culture requires reasoning across context, tradition, and implicit social knowledge, far beyond recalling isolated facts. Yet most culturally focused question answering (QA) benchmarks rely on single-hop questions, which may allow models to exploit shallow cues rather than demonstrate genuine cultural reasoning. In this work, we introduce ID-MoCQA, the first large-scale multi-hop QA dataset for assessing the cultural understanding of large language models (LLMs), grounded in Indonesian traditions and available in both English and Indonesian. We present a new framework that systematically transforms single-hop cultural questions into multi-hop reasoning chains spanning six clue types (e.g., commonsense, temporal, geographical). Our multi-stage validation pipeline, combining expert review and LLM-as-a-judge filtering, ensures high-quality question-answer pairs. Our evaluation across state-of-the-art models reveals substantial gaps in cultural reasoning, particularly in tasks requiring nuanced inference. ID-MoCQA provides a challenging and essential benchmark for advancing the cultural competency of LLMs.
- Abstract(参考訳): 文化を理解するには、文脈、伝統、暗黙の社会的知識をまたいだ推論が必要である。
しかし、ほとんどの文化的に焦点を絞った質問応答(QA)ベンチマークは、モデルが真の文化的理由を示すのではなく、浅い手がかりを活用できるようなシングルホップの質問に依存している。
本研究では,インドネシアの伝統に根ざした大規模言語モデル(LLM)の文化的理解を評価するための,最初の大規模マルチホップQAデータセットであるID-MoCQAを紹介する。
本稿では,単一ホップの文化的質問を6つの手がかり型(例えば,コモンセンス,時間的,地理的)にまたがるマルチホップ推論チェーンに体系的に変換する新しい枠組みを提案する。
エキスパートレビューとLCM-as-a-judgeフィルタリングを組み合わせた多段階検証パイプラインにより,高品質な質問応答ペアが保証される。
現状のモデルによる評価は、文化的推論、特にニュアンスド推論を必要とするタスクにおいて、大きなギャップを生じさせる。
ID-MoCQAは、LLMの文化的能力向上に挑戦的で不可欠なベンチマークを提供する。
関連論文リスト
- LLMs as Cultural Archives: Cultural Commonsense Knowledge Graph Extraction [57.23766971626989]
大規模言語モデル(LLM)は、多様なWebスケールデータから学んだ豊富な文化的知識を符号化する。
文化常識知識グラフ(CCKG)構築のための反復的,即時的枠組みを提案する。
対象文化が英語ではない場合でも、文化知識グラフは英語でよりよく認識されている。
論文 参考訳(メタデータ) (2026-01-25T20:05:04Z) - Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。
文化理論を基礎として、異文化の能力を9次元に分類する。
データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文 参考訳(メタデータ) (2025-12-08T01:21:58Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文 参考訳(メタデータ) (2025-05-16T14:10:41Z) - Through the Prism of Culture: Evaluating LLMs' Understanding of Indian Subcultures and Traditions [9.331687165284587]
インド社会におけるリトル・トラディションを認識し,正確に応答する大規模言語モデルの能力を評価する。
一連のケーススタディを通じて、LLMが支配的なグレートトラディションとローカライズされたリトルトラディションの相互作用のバランスをとることができるかどうかを評価する。
その結果,LLMは文化的ニュアンスを表現できる能力を示す一方で,実践的,文脈特異的なシナリオにこの理解を適用するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-28T06:58:25Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。