論文の概要: HATS: Hindi Analogy Test Set for Evaluating Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2507.13238v1
- Date: Thu, 17 Jul 2025 15:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.564054
- Title: HATS: Hindi Analogy Test Set for Evaluating Reasoning in Large Language Models
- Title(参考訳): HATS:Hindi Analogy Test Set for Evaluating Reasoning in Large Language Models
- Authors: Ashray Gupta, Rohan Joseph, Sunny Rai,
- Abstract要約: インド政府の試験から得られた405の多重選択質問からなるHindi Analogy Test Set (HATS)を紹介した。
我々は、様々なプロンプト戦略を用いて、最先端の多言語LLMをベンチマークし、基礎的思考の連鎖を導入する。
実験の結果, 提案手法にかかわらず, モデルが英語のプロンプトで最適に機能していることが判明した。
- 参考スコア(独自算出の注目度): 1.6385815610837167
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Analogies test a model's ability to infer implicit relationships between concepts, making them a key benchmark for evaluating reasoning capabilities. While large language models (LLMs) are widely evaluated for reasoning in English, their abilities in Indic languages remain understudied, limiting our understanding of whether these models generalize across languages. To address this gap, we introduce a new Hindi Analogy Test Set (HATS), comprising 405 multiple-choice questions sourced from Indian government exams. We benchmark state-of-the-art multilingual LLMs using various prompting strategies and introduce a grounded Chain of Thought approach that leverages cognitive theories of analogical reasoning. This approach improves model performance on Hindi analogy questions. Our experiments show that models perform best with English prompts, irrespective of the prompting strategy. Our test set addresses the lack of a critical resource to evaluate LLM reasoning capabilities in Hindi.
- Abstract(参考訳): アナロジーは、概念間の暗黙の関係を推論するモデルの能力をテストする。
大規模言語モデル(LLM)は、英語の推論のために広く評価されているが、インド語におけるそれらの能力はまだ検討されていないため、これらのモデルが言語全体に一般化するかどうかについての理解が制限されている。
このギャップに対処するため、インド政府の試験から得られた405の多重選択質問からなるHindi Analogy Test Set (HATS)を導入する。
我々は、様々なプロンプト戦略を用いて、最先端の多言語LPMをベンチマークし、アナログ推論の認知理論を活用した基礎的思考の連鎖を導入する。
このアプローチはヒンディー語類推問題におけるモデル性能を改善する。
実験の結果, 提案手法にかかわらず, モデルが英語のプロンプトで最適に機能していることが判明した。
我々のテストセットは、ヒンディー語におけるLLM推論能力を評価するための重要なリソースの欠如に対処する。
関連論文リスト
- MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。
MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。
文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文 参考訳(メタデータ) (2025-07-23T12:56:31Z) - Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [38.52080213211765]
ジオファクトX(GeoFact-X)は、5つの言語で注釈付き推論トレースを持つ地理ベースの多言語事実推論ベンチマークである。
本稿では,教師付き微調整およびテスト時間強化学習を指導する新しいトレーニング手法BRIDGEを提案する。
その結果,BRIDGEは多言語推論の忠実度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models [18.399229357408043]
多言語推論は言語間の論理的推論を扱うために言語モデルを必要とする。
この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-13T16:25:16Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Dialectical language model evaluation: An initial appraisal of the
commonsense spatial reasoning abilities of LLMs [10.453404263936335]
本稿では,コモンセンス推論のための言語モデルの弁証的評価について検討する。
この種の評価の目標は、集合的なパフォーマンス値を得るのではなく、失敗を見つけ、システムのバウンダリをマップすることにある。
本稿では,空間的推論の特定の場合に対して,このような評価を定性的に検討する。
論文 参考訳(メタデータ) (2023-04-22T06:28:46Z) - H-AES: Towards Automated Essay Scoring for Hindi [33.755800922763946]
ヒンディー語領域におけるAES(Automated Essay Scoring)の最先端手法を再現・比較する。
LSTM Networks や Fine-Tuned Transformer Architecture など,古典的な機能ベースの機械学習(ML)と高度なエンドツーエンドモデルを採用しています。
我々は、英訳エッセイを用いて、我々のモデルを訓練し、評価し、自分たちの小規模で実世界のヒンディー語コーパスでそのパフォーマンスを実証的に測定する。
論文 参考訳(メタデータ) (2023-02-28T15:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。