論文の概要: Everyday Physics in Korean Contexts: A Culturally Grounded Physical Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2509.17807v2
- Date: Mon, 29 Sep 2025 12:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.571557
- Title: Everyday Physics in Korean Contexts: A Culturally Grounded Physical Reasoning Benchmark
- Title(参考訳): 韓国における毎日の物理学 - 文化的根拠に基づく物理推論ベンチマーク
- Authors: Jihae Jeong, DaeYeop Lee, DongGeon Lee, Hwanjo Yu,
- Abstract要約: 既存の物理コモンセンス推論ベンチマークは、主に西洋の文脈に焦点を当て、物理的な問題解決の文化的バリエーションを見下ろしている。
EPiK(Everyday Physics in Korean Contexts)は、韓国の文化的文脈における物理的推論をテストする181のバイナリ選択問題からなる新しいベンチマークである。
EPiKは2段階生成および検証パイプラインを使用して構築され、文化的にオーセンティックな問題を生成する。
- 参考スコア(独自算出の注目度): 12.080497081698299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing physical commonsense reasoning benchmarks predominantly focus on Western contexts, overlooking cultural variations in physical problem-solving. To address this gap, we introduce EPiK (Everyday Physics in Korean Contexts), a novel benchmark comprising 181 binary-choice problems that test physical reasoning within Korean cultural contexts, ranging from kimchi (Korean food) to traditional fermentation. EPiK is constructed using a two-stage generation and verification pipeline to create culturally-authentic problems across 9 reasoning subtasks and 84 scenarios. Unlike approaches based on simple translation, our method generates problems organically from Korean contexts while upholding rigorous physical reasoning standards. Our evaluations show that Korean-specialized models consistently outperform general-purpose models of comparable size. This performance gap highlights the limitations of culturally-agnostic models and demonstrates the critical need for culturally-aware benchmarks to truly measure language understanding. Our EPiK is publicly available at https://huggingface.co/datasets/jjae/EPiK.
- Abstract(参考訳): 既存の物理コモンセンス推論ベンチマークは、主に西洋の文脈に焦点を当て、物理的な問題解決における文化的バリエーションを見下ろしている。
このギャップに対処するために,韓国の文化的文脈における物理的推論をテストする181のバイナリ選択問題を含む新しいベンチマークであるEPiK(Everyday Physics in Korean Contexts)を紹介した。
EPiKは2段階生成と検証パイプラインを使用して構築され、9つのサブタスクと84のシナリオにまたがる文化的問題を生成する。
簡単な翻訳に基づくアプローチとは異なり,本手法は厳格な物理推論基準を維持しつつ,韓国の文脈から有機的に問題を発生させる。
評価の結果,韓国特化モデルは同等の大きさの汎用モデルよりも一貫して優れていた。
このパフォーマンスギャップは、文化的に非依存なモデルの限界を強調し、言語理解を真に測定する文化的に認識されたベンチマークにとって重要な必要性を示している。
EPiKはhttps://huggingface.co/datasets/jjae/EPiK.comで公開されています。
関連論文リスト
- Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。
文化理論を基礎として、異文化の能力を9次元に分類する。
データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文 参考訳(メタデータ) (2025-12-08T01:21:58Z) - CURE: Cultural Understanding and Reasoning Evaluation - A Framework for "Thick" Culture Alignment Evaluation in LLMs [24.598338950728234]
大規模言語モデル(LLM)は、文化的に多様な環境にますます展開されている。
既存の方法は、非文脈的正当性や強制選択判断に重点を置いている。
現実的な状況下でモデルを提示するベンチマークのセットを紹介する。
論文 参考訳(メタデータ) (2025-11-15T03:39:13Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - Nunchi-Bench: Benchmarking Language Models on Cultural Reasoning with a Focus on Korean Superstition [0.0]
大規模言語モデルの文化的理解を評価するためのベンチマークであるNunchi-Benchを紹介する。
このベンチマークは、31のトピックにまたがる247の質問、事実的知識の評価、文化的に適切なアドバイス、状況的解釈で構成されている。
韓国語と英語の多言語LLMを評価し,韓国語文化の文脈を判断する能力について分析した。
論文 参考訳(メタデータ) (2025-07-05T11:52:09Z) - Mathematics Isn't Culture-Free: Probing Cultural Gaps via Entity and Scenario Perturbations [32.04983282554752]
我々は,アフリカ,インド,中国,韓国,日本5地域を対象としたGSM8Kテストセットの文化的適応版を作成している。
8Bから72Bパラメータの6つの大言語モデル (LLM) を評価する。
論文 参考訳(メタデータ) (2025-07-01T15:51:46Z) - KULTURE Bench: A Benchmark for Assessing Language Model in Korean Cultural Context [5.693660906643207]
韓国文化に特化して設計された評価フレームワークであるKULTURE Benchを紹介する。
言語モデルの文化的理解と、単語、文、段落レベルでの推論能力を評価するように設計されている。
その結果,韓国文化のより深い側面に関連する文章の理解は,依然として改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T07:20:51Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文 参考訳(メタデータ) (2023-09-06T04:38:16Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。