Fugu-MT 論文翻訳(概要): The Riddle of Reflection: Evaluating Reasoning and Self-Awareness in Multilingual LLMs using Indian Riddles

論文の概要: The Riddle of Reflection: Evaluating Reasoning and Self-Awareness in Multilingual LLMs using Indian Riddles

arxiv url: http://arxiv.org/abs/2511.00960v2
Date: Tue, 04 Nov 2025 14:07:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-05 16:37:27.006948
Title: The Riddle of Reflection: Evaluating Reasoning and Self-Awareness in Multilingual LLMs using Indian Riddles
Title（参考訳）: 反射リドル:インドリドルを用いた多言語LLMにおける推論と自己認識の評価
Authors: Abhinav P M, Ojasva Saxena, Oswald C, Parameswari Krishnamurthy,
Abstract要約: 本研究では,7大インド諸言語におけるLPMの推論と自己評価能力について検討する。我々は,従来のリドルと文脈再構成型を組み合わせた多言語リドルデータセットを提案する。 LLMs-Gemini 2.5 Pro, Gemini 2.5 Flash, Mistral-Saba, LLaMA 4 Scout, LLaMA 4 Maverick-under 7 prompting Strategyを評価した。
参考スコア（独自算出の注目度）: 1.0732935873226022
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The extent to which large language models (LLMs) can perform culturally grounded reasoning across non-English languages remains underexplored. This paper examines the reasoning and self-assessment abilities of LLMs across seven major Indian languages-Bengali, Gujarati, Hindi, Kannada, Malayalam, Tamil, and Telugu. We introduce a multilingual riddle dataset combining traditional riddles with context-reconstructed variants and evaluate five LLMs-Gemini 2.5 Pro, Gemini 2.5 Flash, Mistral-Saba, LLaMA 4 Scout, and LLaMA 4 Maverick-under seven prompting strategies. In the first stage, we assess riddle-solving performance and find that while Gemini 2.5 Pro performs best overall, few-shot methods yield only marginal gains, and accuracy varies notably across languages. In the second stage, we conduct a self-evaluation experiment to measure reasoning consistency. The results reveal a key finding: a model's initial accuracy is inversely correlated with its ability to identify its own mistakes. Top-performing models such as Gemini 2.5 Pro are overconfident (4.34% True Negative Rate), whereas lower-performing models like LLaMA 4 Scout are substantially more self-aware (42.09% True Negative Rate). These results point to clear gaps in multilingual reasoning and highlight the need for models that not only reason effectively but also recognize their own limitations.
Abstract（参考訳）: 大規模言語モデル(LLM)が、非英語言語で文化的に根ざした推論を行うことができる範囲は、いまだに未調査である。本稿では,ベンガル語,グジャラート語,ヒンディー語,カナダ語,マラヤラム語,タミル語,テルグ語を含む7つの主要インドの言語におけるLSMの推論と自己評価能力について検討する。我々は,従来のリドルと文脈再構成された変種を組み合わせた多言語的リドルデータセットを導入し,LLMs-Gemini 2.5 Pro,Gemini 2.5 Flash,Mistral-Saba,LLaMA 4 Scout,LLaMA 4 Maverick-under 7 の促進戦略を評価した。第一段階では、解答性能を評価し、Gemini 2.5 Proが最高の性能を発揮するのに対して、少数ショット法は限界ゲインしか得られず、精度は言語によって顕著に異なることに気付く。第2段階では、推論整合性を測定するための自己評価実験を行う。モデルの初期精度は、自身の誤りを識別する能力と逆相関している。 Gemini 2.5 Proのようなトップパフォーマンスモデルは過信(4.34%のTrue Negative Rate)であり、LLaMA 4 Scoutのような低パフォーマンスモデルは実質的に自己認識(42.09%のTrue Negative Rate)である。これらの結果は、多言語推論における明確なギャップを示し、効果的に推論するだけでなく、自身の制限も認識するモデルの必要性を強調している。

関連論文リスト

KatotohananQA: Evaluating Truthfulness of Large Language Models in Filipino [0.0]
本稿では、TruthfulQAベンチマークのフィリピン翻訳であるKatotohananQAを紹介する。 7つの自由層プロプライエタリモデルがバイナリ選択フレームワークを使用して評価された。発見は、英語とフィリピンの真実性の間に大きなパフォーマンスのギャップがあることを示している。
論文参考訳（メタデータ） (2025-09-07T14:09:57Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [85.78821098963607]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
Better to Ask in English: Evaluation of Large Language Models on English, Low-resource and Cross-Lingual Settings [12.507989493130175]
GPT-4, Llama 2 および Gemini は, 東南アジアの他の低リソース言語と比較して, 英語での有効性が評価されている。 GPT-4はLlama 2とGeminiを5つのプロンプト設定と全言語で上回ったことを示唆している。
論文参考訳（メタデータ） (2024-10-17T02:12:30Z)
Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文参考訳（メタデータ） (2024-10-14T18:44:23Z)
Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。 200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。 GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文参考訳（メタデータ） (2024-04-30T12:43:53Z)
MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks [12.665447518524187]
本研究の目的は、同一の多言語データセットで比較することで、SoTA LLMの非英語能力の徹底的な評価を行うことである。私たちのベンチマークは、低リソースのアフリカ言語を含む83の言語をカバーする22のデータセットで構成されています。また、データ汚染に関する研究を行い、複数のモデルが多言語評価ベンチマークで汚染される可能性が示唆された。
論文参考訳（メタデータ） (2023-11-13T16:45:37Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。