論文の概要: Ko-PIQA: A Korean Physical Commonsense Reasoning Dataset with Cultural Context
- arxiv url: http://arxiv.org/abs/2509.11303v1
- Date: Sun, 14 Sep 2025 14:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.022778
- Title: Ko-PIQA: A Korean Physical Commonsense Reasoning Dataset with Cultural Context
- Title(参考訳): Ko-PIQA: 文化文脈による韓国の物理コモンセンス推論データセット
- Authors: Dasol Choi, Jungwhan Kim, Guijin Son,
- Abstract要約: PIQAのような物理コモンセンス推論データセットは、主に英語中心であり、文化的多様性を欠いている。
文化コンテキストを組み込んだ韓国の物理常識推論データセットKo-PIQAを紹介する。
- 参考スコア(独自算出の注目度): 8.549285502180208
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Physical commonsense reasoning datasets like PIQA are predominantly English-centric and lack cultural diversity. We introduce Ko-PIQA, a Korean physical commonsense reasoning dataset that incorporates cultural context. Starting from 3.01 million web-crawled questions, we employed a multi-stage filtering approach using three language models to identify 11,553 PIQA-style questions. Through GPT-4o refinement and human validation, we obtained 441 high-quality question-answer pairs. A key feature of Ko-PIQA is its cultural grounding: 19.7\% of questions contain culturally specific elements like traditional Korean foods (kimchi), clothing (hanbok), and specialized appliances (kimchi refrigerators) that require culturally-aware reasoning beyond direct translation. We evaluate seven language models on Ko-PIQA, with the best model achieving 83.22\% accuracy while the weakest reaches only 59.86\%, demonstrating significant room for improvement. Models particularly struggle with culturally specific scenarios, highlighting the importance of culturally diverse datasets. Ko-PIQA serves as both a benchmark for Korean language models and a foundation for more inclusive commonsense reasoning research. The dataset and code will be publicly available.
- Abstract(参考訳): PIQAのような物理コモンセンス推論データセットは、主に英語中心であり、文化的多様性を欠いている。
韓国のコモンセンス推論データセットKo-PIQAを紹介する。
3100万のウェブクローリング質問から始まり、3つの言語モデルを用いて11,553のPIQAスタイルの質問を識別する多段階フィルタリング手法を採用した。
GPT-4oの改良と人間による検証により,高品質な質問応答対441を得た。
Ko-PIQAの重要な特徴は、伝統的な韓国料理(キムチ)、衣服(ハンボック)、そして直接翻訳以上の文化的な推論を必要とする特殊な器具(キムチ冷蔵庫)など、文化的に特定の要素を含む質問の19.7%が文化的な根拠である。
Ko-PIQA 上で 7 つの言語モデルを評価し,最も弱い言語モデルでは 83.22 % の精度,弱い言語モデルでは 59.86 % の精度を実現した。
モデルは特に文化的に特定のシナリオに苦慮し、文化的に多様なデータセットの重要性を強調します。
Ko-PIQAは韓国語モデルのベンチマークであり、より包括的なコモンセンス推論研究の基礎である。
データセットとコードは公開されている。
関連論文リスト
- CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [18.526285276022907]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文 参考訳(メタデータ) (2024-03-11T03:54:33Z) - KoBBQ: Korean Bias Benchmark for Question Answering [28.091808407408823]
Bias Benchmark for Question Answering (BBQ)は、言語モデル(LM)の社会的バイアスを評価するように設計されている。
韓国のバイアスベンチマークデータセットであるKoBBQを紹介する。
本稿では,データセットの文化的適応を考慮に入れた一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2023-07-31T15:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。