論文の概要: BengaliFig: A Low-Resource Challenge for Figurative and Culturally Grounded Reasoning in Bengali
- arxiv url: http://arxiv.org/abs/2511.20399v1
- Date: Tue, 25 Nov 2025 15:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.522768
- Title: BengaliFig: A Low-Resource Challenge for Figurative and Culturally Grounded Reasoning in Bengali
- Title(参考訳): BengaliFig: ベンガルにおける比喩的かつ文化的根拠に基づく推論のための低リソースチャレンジ
- Authors: Abdullah Al Sefat,
- Abstract要約: コンパクトでリッチな注釈付き挑戦集合であるBengaliFigを提示する。
データセットには、ベンガルの口頭と文学の伝統から採られた435のユニークな謎が含まれている。
各項目は、推論タイプ、トラップタイプ、文化的深さ、回答カテゴリ、難易度を5次元にアノテートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models excel on broad multilingual benchmarks but remain to be evaluated extensively in figurative and culturally grounded reasoning, especially in low-resource contexts. We present BengaliFig, a compact yet richly annotated challenge set that targets this gap in Bengali, a widely spoken low-resourced language. The dataset contains 435 unique riddles drawn from Bengali oral and literary traditions. Each item is annotated along five orthogonal dimensions capturing reasoning type, trap type, cultural depth, answer category, and difficulty, and is automatically converted to multiple-choice format through a constraint-aware, AI-assisted pipeline. We evaluate eight frontier LLMs from major providers under zero-shot and few-shot chain-of-thought prompting, revealing consistent weaknesses in metaphorical and culturally specific reasoning. BengaliFig thus contributes both a diagnostic probe for evaluating LLM robustness in low-resource cultural contexts and a step toward inclusive and heritage-aware NLP evaluation.
- Abstract(参考訳): 大規模な言語モデルは多言語ベンチマークに優れているが、特に低リソースの文脈において、具体的および文化的根拠に基づく推論において広く評価される。
我々はBengaliFigを紹介した。Bengaliは、広く話されている低リソース言語である。
データセットには、ベンガルの口頭と文学の伝統から採られた435のユニークな謎が含まれている。
各項目は、推論タイプ、トラップタイプ、文化的深さ、回答カテゴリ、難易度をキャプチャする5つの直交次元に沿って注釈付けされ、制約対応のAIアシストパイプラインを通じて、自動的に複数選択形式に変換される。
我々は,ゼロショットおよび少数ショットチェーン・オブ・シークレットの推進の下で,主要プロバイダの8つのフロンティアLCMを評価し,比喩的および文化的に特異的な推論において一貫した弱点を明らかにした。
そこでBengaliFigは、低リソースの文化的文脈におけるLCMの堅牢性を評価するための診断プローブと、包括的で遺産を意識したNLP評価へのステップの両方に貢献する。
関連論文リスト
- BNLI: A Linguistically-Refined Bengali Dataset for Natural Language Inference [1.7688536690159165]
既存のベンガルのNLIデータセットには、アノテーションエラー、曖昧な文対、言語多様性の欠如など、いくつかの矛盾がある。
頑健な言語理解と推論モデリングをサポートするために設計されたベンガルNLIデータセットであるBNLIを紹介する。
我々は、多言語およびベンガル固有のモデルを含む最先端のトランスフォーマーベースのアーキテクチャを用いてBNLIをベンチマークし、複雑な意味関係を捉える能力を評価した。
論文 参考訳(メタデータ) (2025-11-11T22:29:14Z) - BengaliMoralBench: A Benchmark for Auditing Moral Reasoning in Large Language Models within Bengali Language and Culture [5.215285027585101]
ベンガル語は2億8500万人以上が話しており、世界第6位である。
既存の倫理ベンチマークは、主に英語中心で、西洋のフレームワークによって形作られています。
我々はベンガル語と社会文化の文脈に関する最初の大規模倫理ベンチマークであるBengaliMoralBenchを紹介する。
論文 参考訳(メタデータ) (2025-11-05T04:55:35Z) - MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。
MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。
文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文 参考訳(メタデータ) (2025-07-23T12:56:31Z) - Leveraging Large Language Models for Bengali Math Word Problem Solving with Chain of Thought Reasoning [0.0]
ベンガル数学語問題(MWP)の解法は、自然言語処理(NLP)において依然として大きな課題である。
これまで、人間に注釈を付けたBengaliデータセットは、このタスクに対処していない。
8792個のベンガルMWPのデータセットであるSOMADHANを開発した。
論文 参考訳(メタデータ) (2025-05-27T15:47:10Z) - XIFBench: Evaluating Large Language Models on Multilingual Instruction Following [59.549015333755186]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた命令追従機能を示している。
既存の評価には、様々な言語的文脈におけるきめ細かい制約分析が欠如している。
我々は,LLMの多言語命令追従能力を評価するための総合ベンチマークであるXIFBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-10T17:07:52Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - BenLLMEval: A Comprehensive Evaluation into the Potentials and Pitfalls of Large Language Models on Bengali NLP [17.362068473064717]
大規模言語モデル(LLM)は、NLPにおいて最も重要なブレークスルーの1つである。
本稿では,ベンガル語での性能をベンチマークするために,LLMを総合的に評価するBenLLM-Evalを紹介する。
実験の結果、ベンガルのNLPタスクではゼロショットLLMは、現在のSOTA微調整モデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-09-22T20:29:34Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。