論文の概要: Creating and Evaluating Figurative Language Dataset for Sindhi
- arxiv url: http://arxiv.org/abs/2605.01323v1
- Date: Sat, 02 May 2026 08:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.705222
- Title: Creating and Evaluating Figurative Language Dataset for Sindhi
- Title(参考訳): Sindhiのための図形言語データセットの作成と評価
- Authors: Wazir Ali, Adeeb Noor, Saifullah Tumrani,
- Abstract要約: そこで我々は,SiNFluDを提案する。SiNFluD,SiNFluD,SiNFluD,SiNFluD,SiNFluD,SiNFluD。
2つのネイティブアノテータは、Doccanoテキストアノテーションツールを使用してデータをラベル付けし、0.81のアノテータ間契約を達成している。
また,mBERT,XLM-RoBERTa,XLM-RoBERTa-XLモデル,およびSetFitを用いて文変換器の微調整を行った。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this article, we introduce SiNFluD, a novel benchmark dataset for Sindhi figurative language classification. We first collect raw text from various blogs, social media platforms, and literary sources, and subsequently prepare the corpus for annotation. Two native annotators label the data using the Doccano text annotation tool, achieving an inter-annotator agreement of 0.81. We then establish baseline results using 5-fold and 10-fold cross-validation. Finally, we evaluate mBERT, XLM-RoBERTa, and XLM-RoBERTa-XL models, along with SetFit for few-shot fine-tuning of sentence transformers. Among these, the pretrained XLM-RoBERTa-XL achieves the best performance.
- Abstract(参考訳): 本稿では,SiNFluDについて紹介する。SiNFluDはSindhi図形言語分類のための新しいベンチマークデータセットである。
まず、さまざまなブログ、ソーシャルメディアプラットフォーム、文学資料から原文を収集し、その後、注釈のためのコーパスを作成します。
2つのネイティブアノテータは、Doccanoテキストアノテーションツールを使用してデータをラベル付けし、0.81のアノテータ間契約を達成している。
次に,5倍,10倍のクロスバリデーションを用いてベースライン結果を確立する。
最後に,mBERT,XLM-RoBERTa,XLM-RoBERTa-XLモデルとSetFitを用いて文変換器の微調整を行った。
これらのうち、事前訓練されたXLM-RoBERTa-XLは最高の性能を発揮する。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Triples-to-isiXhosa (T2X): Addressing the Challenges of Low-Resource
Agglutinative Data-to-Text Generation [9.80836683456026]
我々は,低リソースかつ凝集性の高いisiXhosaのデータ・トゥ・テキストに取り組む。
我々はWebNLGのサブセットに基づいた新しいデータセットであるTriples-to-isiXhosa (T2X)を紹介する。
本研究では,T2X の評価フレームワークを開発し,データ記述の精度を計測する。
論文 参考訳(メタデータ) (2024-03-12T11:53:27Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+
Language Pairs [27.574815708395203]
CrossSumは1500以上の言語対の1,68万記事要約サンプルからなる大規模言語間要約データセットである。
我々は、多言語抽象要約データセットからのクロス言語検索により、異なる言語で記述された並列記事の整列により、クロスサムを作成する。
対象言語における記事の要約が可能な言語間要約モデルを効果的に学習する多段階データサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-16T11:40:36Z) - Leveraging ParsBERT and Pretrained mT5 for Persian Abstractive Text
Summarization [1.0742675209112622]
本稿では,ペルシャ抽象テキスト要約のための新しいデータセットpn-summaryについて紹介する。
本論文で用いるモデルはmT5とParsBERTモデルのエンコーダデコーダ版である。
論文 参考訳(メタデータ) (2020-12-21T09:35:52Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。