論文の概要: Can LLMs Solve My Grandma's Riddle? Evaluating Multilingual Large Language Models on Reasoning Traditional Bangla Tricky Riddles
- arxiv url: http://arxiv.org/abs/2512.20324v1
- Date: Tue, 23 Dec 2025 12:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.874631
- Title: Can LLMs Solve My Grandma's Riddle? Evaluating Multilingual Large Language Models on Reasoning Traditional Bangla Tricky Riddles
- Title(参考訳): LLMは私のおばあちゃんのリドルを解けるか? 伝統的なバングラのトリッキーリドルを推論する多言語大言語モデルの評価
- Authors: Nurul Labib Sayeedi, Md. Faiyaz Abdullah Sayeedi, Khushnur Binte Jahangir, Swakkhar Shatabda, Sarah Masud Preum,
- Abstract要約: BanglaRiddleEvalは、4つのタスクにまたがってインスタンス化された1,244の従来のBanglaライドルのベンチマークである。
LLMベースのパイプラインを使用して、チェイン・オブ・サートの説明、セマンティック・コヒーレントなイントラクタ、微粒なあいまいさアノテーションを生成する。
その結果,現在のLLMは,Banglaライドル推論に必要な手がかりを捉えるが,人間レベルの性能には及ばないことがわかった。
- 参考スコア(独自算出の注目度): 5.194525790029377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) show impressive performance on many NLP benchmarks, yet their ability to reason in figurative, culturally grounded, and low-resource settings remains underexplored. We address this gap for Bangla by introducing BanglaRiddleEval, a benchmark of 1,244 traditional Bangla riddles instantiated across four tasks (4,976 riddle-task artifacts in total). Using an LLM-based pipeline, we generate Chain-of-Thought explanations, semantically coherent distractors, and fine-grained ambiguity annotations, and evaluate a diverse suite of open-source and closed-source models under different prompting strategies. Models achieve moderate semantic overlap on generative QA but low correctness, MCQ accuracy peaks at only about 56% versus an 83% human baseline, and ambiguity resolution ranges from roughly 26% to 68%, with high-quality explanations confined to the strongest models. These results show that current LLMs capture some cues needed for Bangla riddle reasoning but remain far from human-level performance, establishing BanglaRiddleEval as a challenging new benchmark for low-resource figurative reasoning. All data, code, and evaluation scripts are available on GitHub: https://github.com/Labib1610/BanglaRiddleEval.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのNLPベンチマークで顕著なパフォーマンスを示しているが、具体的、文化的基盤があり、低リソース設定で推論する能力はいまだに未定である。
Bangla RiddleEvalは、4つのタスク(合計4,976個のリドルタスク)でインスタンス化された1,244個の従来のBanglaリドルのベンチマークである。
LLMベースのパイプラインを用いて、チェイン・オブ・サートの説明、セマンティック・コヒーレントなインタプリタ、微粒なあいまいさアノテーションを生成し、異なるプロンプト戦略の下で様々なオープンソースおよびクローズドソースモデル群を評価する。
モデルは、生成的QAに対して適度なセマンティックオーバーラップを実現するが、低い正確性、MCQの精度は83%のベースラインに対してわずか56%であり、曖昧度はおよそ26%から68%の範囲であり、高品質な説明は最強のモデルに限られている。
これらの結果から、現在のLLMは、Bangla riddle推論に必要ないくつかの手がかりをキャプチャするが、人間レベルの性能には程遠いことが示され、BanglaRiddleEvalを低リソースの比喩推論のための挑戦的な新しいベンチマークとして確立した。
すべてのデータ、コード、評価スクリプトはGitHubで入手できる。
関連論文リスト
- The Riddle of Reflection: Evaluating Reasoning and Self-Awareness in Multilingual LLMs using Indian Riddles [1.0732935873226022]
本研究では,7大インド諸言語におけるLPMの推論と自己評価能力について検討する。
我々は,従来のリドルと文脈再構成型を組み合わせた多言語リドルデータセットを提案する。
LLMs-Gemini 2.5 Pro, Gemini 2.5 Flash, Mistral-Saba, LLaMA 4 Scout, LLaMA 4 Maverick-under 7 prompting Strategyを評価した。
論文 参考訳(メタデータ) (2025-11-02T14:40:36Z) - BanglaMATH : A Bangla benchmark dataset for testing LLM mathematical reasoning at grades 6, 7, and 8 [0.568041607842355]
本稿では,Arithmetic, Algebra, Geometry, Logical Reasoningなどのトピックにまたがる1.7kのBangla数学単語のデータセットであるBanglaMATHを紹介する。
Gemini 2.5 FlashとDeepSeek V3は、小学校の3学年で80パーセントの精度で強力なパフォーマンスを達成した唯一のモデルです。
論文 参考訳(メタデータ) (2025-10-13T14:03:30Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization [1.2289361708127877]
本研究では,9大言語モデル(LLM)のゼロショット性能について検討する。
ROUGEメトリクスを用いてこれらのLCMを、細調整された最先端モデルであるBangla T5に対してベンチマークした。
その結果、ゼロショットLLMは微調整モデルと競合し、タスク固有の訓練を必要とせずに高品質なサマリーを達成できることを示した。
論文 参考訳(メタデータ) (2025-05-08T09:06:28Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。
200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。
以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。
GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文 参考訳(メタデータ) (2024-04-30T12:43:53Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。