論文の概要: BNLI: A Linguistically-Refined Bengali Dataset for Natural Language Inference
- arxiv url: http://arxiv.org/abs/2511.08813v1
- Date: Thu, 13 Nov 2025 01:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.239167
- Title: BNLI: A Linguistically-Refined Bengali Dataset for Natural Language Inference
- Title(参考訳): BNLI:自然言語推論のための言語学的に精製されたベンガルデータセット
- Authors: Farah Binta Haque, Md Yasin, Shishir Saha, Md Shoaib Akhter Rafi, Farig Sadeque,
- Abstract要約: 既存のベンガルのNLIデータセットには、アノテーションエラー、曖昧な文対、言語多様性の欠如など、いくつかの矛盾がある。
頑健な言語理解と推論モデリングをサポートするために設計されたベンガルNLIデータセットであるBNLIを紹介する。
我々は、多言語およびベンガル固有のモデルを含む最先端のトランスフォーマーベースのアーキテクチャを用いてBNLIをベンチマークし、複雑な意味関係を捉える能力を評価した。
- 参考スコア(独自算出の注目度): 1.7688536690159165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the growing progress in Natural Language Inference (NLI) research, resources for the Bengali language remain extremely limited. Existing Bengali NLI datasets exhibit several inconsistencies, including annotation errors, ambiguous sentence pairs, and inadequate linguistic diversity, which hinder effective model training and evaluation. To address these limitations, we introduce BNLI, a refined and linguistically curated Bengali NLI dataset designed to support robust language understanding and inference modeling. The dataset was constructed through a rigorous annotation pipeline emphasizing semantic clarity and balance across entailment, contradiction, and neutrality classes. We benchmarked BNLI using a suite of state-of-the-art transformer-based architectures, including multilingual and Bengali-specific models, to assess their ability to capture complex semantic relations in Bengali text. The experimental findings highlight the improved reliability and interpretability achieved with BNLI, establishing it as a strong foundation for advancing research in Bengali and other low-resource language inference tasks.
- Abstract(参考訳): 自然言語推論(NLI)研究の進展にもかかわらず、ベンガル語の資源は非常に限られている。
既存のベンガルNLIデータセットには、アノテーションエラー、曖昧な文対、言語多様性の欠如など、いくつかの矛盾があり、効果的なモデルトレーニングや評価を妨げている。
これらの制約に対処するために,頑健な言語理解と推論モデリングをサポートするために設計されたベンガルNLIデータセットであるBNLIを導入する。
データセットは厳密なアノテーションパイプラインを通じて構築され、意味的明快さと包含性、矛盾、中立性クラス間のバランスを強調した。
我々は、多言語およびベンガル固有のモデルを含む最先端のトランスフォーマーベースのアーキテクチャを用いてBNLIをベンチマークし、ベンガル文字の複雑な意味関係を捉える能力を評価した。
実験の結果は、BNLIで達成された信頼性と解釈可能性の向上を強調し、ベンガルや他の低リソース言語推論タスクの研究を進めるための強力な基盤として確立した。
関連論文リスト
- Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis [0.0]
ベンガル語はNLP研究においてあまり表現されていない言語である。
ベンガルのNLP性能を阻害する課題を系統的に検討する。
ベンガル語では英語と比較して一貫した性能差がみられた。
論文 参考訳(メタデータ) (2025-07-31T05:16:43Z) - Leveraging Large Language Models for Bengali Math Word Problem Solving with Chain of Thought Reasoning [0.0]
ベンガル数学語問題(MWP)の解法は、自然言語処理(NLP)において依然として大きな課題である。
これまで、人間に注釈を付けたBengaliデータセットは、このタスクに対処していない。
8792個のベンガルMWPのデータセットであるSOMADHANを開発した。
論文 参考訳(メタデータ) (2025-05-27T15:47:10Z) - Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Language Inference: A Comprehensive Study [0.0]
自然言語推論(NLI)は自然言語処理(NLP)の基盤である
本研究では,ベンガル語のような低リソース言語におけるLLM(Large Language Models)の評価について検討した。
論文 参考訳(メタデータ) (2024-05-05T13:57:05Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - A Continuous Space Neural Language Model for Bengali Language [0.4799822253865053]
本稿では, 連続空間ニューラル言語モデル, より具体的にはASGD重量減少型LSTM言語モデル, およびベンガル語で効率的に学習する手法を提案する。
提案したアーキテクチャは、ベンガルの保持されたデータセットにおいて、推論の難易度を51.2まで低くすることで、それよりも優れている。
論文 参考訳(メタデータ) (2020-01-11T14:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。