論文の概要: Reveal-Bangla: A Dataset for Cross-Lingual Multi-Step Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2508.08933v1
- Date: Tue, 12 Aug 2025 13:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.437202
- Title: Reveal-Bangla: A Dataset for Cross-Lingual Multi-Step Reasoning Evaluation
- Title(参考訳): Reveal-Bangla: 言語横断型マルチステップ推論評価のためのデータセット
- Authors: Khondoker Ittehadul Islam, Gabriele Sarti,
- Abstract要約: 本稿では,英語Revealデータセットから派生した,手動で翻訳したBangla多段階推論データセットを提案する。
英語中心およびバングラ語中心の多言語小言語モデルの制御評価を行う。
以上の結果から,より困難な非バイナリ問題に対して,推論コンテキストが有用であることが示唆された。
- 参考スコア(独自算出の注目度): 2.70649643788766
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language models have demonstrated remarkable performance on complex multi-step reasoning tasks. However, their evaluation has been predominantly confined to high-resource languages such as English. In this paper, we introduce a manually translated Bangla multi-step reasoning dataset derived from the English Reveal dataset, featuring both binary and non-binary question types. We conduct a controlled evaluation of English-centric and Bangla-centric multilingual small language models on the original dataset and our translated version to compare their ability to exploit relevant reasoning steps to produce correct answers. Our results show that, in comparable settings, reasoning context is beneficial for more challenging non-binary questions, but models struggle to employ relevant Bangla reasoning steps effectively. We conclude by exploring how reasoning steps contribute to models' predictions, highlighting different trends across models and languages.
- Abstract(参考訳): 言語モデルは複雑な多段階推論タスクにおいて顕著な性能を示した。
しかし、その評価は主に英語などの高リソース言語に限られている。
本稿では,英語のRevealデータセットから派生したBangla多段階推論データセットを手動で翻訳し,二項質問型と非二項質問型の両方を特徴付ける。
我々は、原文データセットと翻訳バージョンに基づいて、英語中心およびバングラ語中心の多言語小言語モデルの制御評価を行い、関連する推論ステップを利用して正しい回答を生成する能力を比較する。
以上の結果から,モデルでは関連するBangla推論ステップを効果的に活用することが困難である。
私たちは、推論ステップがモデルの予測にどのように貢献するかを探求し、モデルと言語間の異なる傾向を強調します。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning [44.53966523376327]
SeaEvalは多言語基盤モデルのベンチマークである。
これらのモデルがどのように理解し、自然言語で推論するかを特徴付ける。
また、文化の実践やニュアンス、価値観をいかに理解したかについても検討する。
論文 参考訳(メタデータ) (2023-09-09T11:42:22Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。