論文の概要: L3Cube-MahaSTS: A Marathi Sentence Similarity Dataset and Models
- arxiv url: http://arxiv.org/abs/2508.21569v1
- Date: Fri, 29 Aug 2025 12:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.040944
- Title: L3Cube-MahaSTS: A Marathi Sentence Similarity Dataset and Models
- Title(参考訳): L3Cube-MahaSTS: マラソン文の類似性データセットとモデル
- Authors: Aishwarya Mirashi, Ananya Joshi, Raviraj Joshi,
- Abstract要約: マハSTS(MahaSTS)は、マラーティのための人間の注釈付きテキスト類似性データセットである。
また、回帰に基づく類似度スコアリングに最適化された微調整Sentence-BERTモデルであるMahaSBERT-STS-v2を提案する。
- 参考スコア(独自算出の注目度): 8.496175174567547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MahaSTS, a human-annotated Sentence Textual Similarity (STS) dataset for Marathi, along with MahaSBERT-STS-v2, a fine-tuned Sentence-BERT model optimized for regression-based similarity scoring. The MahaSTS dataset consists of 16,860 Marathi sentence pairs labeled with continuous similarity scores in the range of 0-5. To ensure balanced supervision, the dataset is uniformly distributed across six score-based buckets spanning the full 0-5 range, thus reducing label bias and enhancing model stability. We fine-tune the MahaSBERT model on this dataset and benchmark its performance against other alternatives like MahaBERT, MuRIL, IndicBERT, and IndicSBERT. Our experiments demonstrate that MahaSTS enables effective training for sentence similarity tasks in Marathi, highlighting the impact of human-curated annotations, targeted fine-tuning, and structured supervision in low-resource settings. The dataset and model are publicly shared at https://github.com/l3cube-pune/MarathiNLP
- Abstract(参考訳): 本稿では,MhaSBERT-STS-v2とともに,MhaSBERT-STS-v2とともにMarathiのための人間アノテーション付き文間類似(STS)データセットMahaSTSを提案する。
MahaSTSデータセットは、16,860のMarathi文ペアで構成され、0-5の範囲で連続的な類似度スコアがラベル付けられている。
バランスの取れた監視を確保するため、データセットは完全な0-5範囲にまたがる6つのスコアベースのバケットに均一に分散され、ラベルバイアスを低減し、モデルの安定性が向上する。
このデータセットでMahaSBERTモデルを微調整し、そのパフォーマンスをMahaBERT、MuRIL、IndicBERT、IndicSBERTといった他の選択肢と比較します。
実験の結果,MahaSTSはマーティ語における文類似性タスクの効果的な訓練を可能にし,人為的アノテーション,微調整,低リソース環境における構造化管理の影響を強調した。
データセットとモデルはhttps://github.com/l3cube-pune/MarathiNLPで公開されています。
関連論文リスト
- Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - L3Cube-MahaNews: News-based Short Text and Long Document Classification Datasets in Marathi [0.4194295877935868]
L3Cube-MahaNewsは,ニュースの見出しや記事に焦点をあてたマラタイ語テキスト分類コーパスである。
このコーパスは最大規模のマラーティコーパスであり、1.05L以上の記録を12のカテゴリに分類している。
異なる文書の長さに対応するため、MahaNewsは短文、長文、中段落用に特別に設計された3つの教師付きデータセットで構成されている。
論文 参考訳(メタデータ) (2024-04-28T15:20:45Z) - Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking
BERT Sentence Representations for Hindi and Marathi [0.7874708385247353]
この研究は、ヒンディー語とマラティ語という2つの低リソースのインドの言語に焦点を当てている。
機械翻訳を用いた合成NLIとSTSデータセットを用いて,これらの言語のための文-BERTモデルを訓練する。
我々は,NLI事前学習とSTSbファインチューニングの戦略が,ヒンディー語とマラタイ語の文類似性モデルの生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-21T05:15:48Z) - Mono vs Multilingual BERT for Hate Speech Detection and Text
Classification: A Case Study in Marathi [0.966840768820136]
マラーティー語に焦点をあて、ヘイトスピーチの検出、感情分析、マラティー語における単純なテキスト分類のためのデータセットのモデルを評価する。
我々は,mBERT,indicBERT,xlm-RoBERTaなどの標準多言語モデルを用い,MahaBERT,MahaALBERT,MahaRoBERTaと比較した。
単言語MahaBERTをベースとしたモデルでは,多言語からの文の埋め込みに比べて表現が豊富であることを示す。
論文 参考訳(メタデータ) (2022-04-19T05:07:58Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Evaluation of BERT and ALBERT Sentence Embedding Performance on
Downstream NLP Tasks [4.955649816620742]
本稿では,BERT と ALBERT の文埋め込みモデルについて検討する。
我々は、Sentence-BERT (SBERT) と呼ばれるシアムとトリプルトネットワーク構造を持つBERTネットワークを改良し、BERTをALBERTに置き換え、Sentence-ALBERT (SALBERT) を作成する。
論文 参考訳(メタデータ) (2021-01-26T09:14:06Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。