論文の概要: SentiMaithili: A Benchmark Dataset for Sentiment and Reason Generation for the Low-Resource Maithili Language
- arxiv url: http://arxiv.org/abs/2510.22160v1
- Date: Sat, 25 Oct 2025 04:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.89224
- Title: SentiMaithili: A Benchmark Dataset for Sentiment and Reason Generation for the Low-Resource Maithili Language
- Title(参考訳): SentiMaithili: 低リソースのMaithili言語のためのSentimentとReason生成のためのベンチマークデータセット
- Authors: Rahul Ranjan, Mahendra Kumar Gurve, Anuj, Nitin, Yamuna Prasad,
- Abstract要約: マイティリ語(英語: Maithili)は、インド・アーリア語族に属する言語で、インドのプルバンチャル地方で1300万人以上の人々が話している。
この研究は、Maithiliで説明可能な感情計算のための最初のベンチマークを確立する。
- 参考スコア(独自算出の注目度): 0.9743193980153243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing benchmark datasets for low-resource languages poses significant challenges, primarily due to the limited availability of native linguistic experts and the substantial time and cost involved in annotation. Given these challenges, Maithili is still underrepresented in natural language processing research. It is an Indo-Aryan language spoken by more than 13 million people in the Purvanchal region of India, valued for its rich linguistic structure and cultural significance. While sentiment analysis has achieved remarkable progress in high-resource languages, resources for low-resource languages, such as Maithili, remain scarce, often restricted to coarse-grained annotations and lacking interpretability mechanisms. To address this limitation, we introduce a novel dataset comprising 3,221 Maithili sentences annotated for sentiment polarity and accompanied by natural language justifications. Moreover, the dataset is carefully curated and validated by linguistic experts to ensure both label reliability and contextual fidelity. Notably, the justifications are written in Maithili, thereby promoting culturally grounded interpretation and enhancing the explainability of sentiment models. Furthermore, extensive experiments using both classical machine learning and state-of-the-art transformer architectures demonstrate the dataset's effectiveness for interpretable sentiment analysis. Ultimately, this work establishes the first benchmark for explainable affective computing in Maithili, thus contributing a valuable resource to the broader advancement of multilingual NLP and explainable AI.
- Abstract(参考訳): 低リソース言語のためのベンチマークデータセットの開発は、主にネイティブ言語の専門家の可用性の制限と、アノテーションに関連するかなりの時間とコストのために、大きな課題を提起する。
これらの課題を考えると、Maithiliは自然言語処理の研究においてまだ不足している。
インド・アーリア語(インド・アーリア語: Indo-Aryan language)は、インド・プルヴァンチャル地方で1300万人以上の人々が話しており、豊かな言語構造と文化的重要性が評価されている。
感情分析はハイリソース言語では顕著な進歩を遂げているが、Maithiliのような低リソース言語のためのリソースは乏しいままであり、しばしば粗粒度のアノテーションに制限され、解釈可能性のメカニズムが欠如している。
この制限に対処するため,3,221のMaithili文が感情極性に注釈付けされ,自然言語の正当性を伴う新しいデータセットを導入した。
さらに、データセットは、ラベルの信頼性と文脈の忠実さの両方を保証するために、言語専門家によって慎重にキュレートされ、検証される。
特に、正当化はマイティリ語で書かれており、文化的に根ざした解釈を促進し、感情モデルの説明可能性を高める。
さらに、古典的な機械学習と最先端のトランスフォーマーアーキテクチャの両方を用いた広範な実験により、データセットの解釈可能な感情分析の有効性が示されている。
最終的に、この研究は、Maithiliにおける説明可能な感情的コンピューティングのための最初のベンチマークを確立し、多言語NLPと説明可能なAIの広範な進歩に貴重なリソースを提供する。
関連論文リスト
- From Polyester Girlfriends to Blind Mice: Creating the First Pragmatics Understanding Benchmarks for Slovene [0.12277343096128711]
我々はSloPragEvalとSloPragMegaを紹介した。
本稿では,翻訳の難しさについて論じ,人間のベースラインを確立するためのキャンペーンについて述べるとともに,パイロット評価をLCMで報告する。
以上の結果から,現在のモデルではニュアンス言語理解が大幅に改善されているものの,非文節発話におけるインプリート話者の意味を推測できない可能性が示唆された。
論文 参考訳(メタデータ) (2025-10-24T15:43:42Z) - Liaozhai through the Looking-Glass: On Paratextual Explicitation of Culture-Bound Terms in Machine Translation [70.43884512651668]
我々は、文学・翻訳研究からジェネットのパラテキスト論(1987年)を定式化し、機械翻訳におけるパラテキスト明示の課題を紹介した。
古典中国語の短編集集Liaozhaiの4つの英訳から560の専門家対応パラテキストのデータセットを構築した。
本研究は,言語的等価性を超えた機械翻訳におけるパラテクスト的明示の可能性を示すものである。
論文 参考訳(メタデータ) (2025-09-27T16:27:36Z) - Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文 参考訳(メタデータ) (2025-02-24T17:41:48Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Transcending Language Boundaries: Harnessing LLMs for Low-Resource Language Translation [38.81102126876936]
本稿では,キーワードに着目して,低リソース言語における翻訳品質を向上させる新しい検索手法を提案する。
本手法の有効性を評価するため,北米の絶滅危惧種であるチェロキー語,アジアにおける歴史的・文化的に重要な言語であるチベット語,話者がほとんどいない満州語という3つの低資源言語に英語から翻訳した実験を行った。
GPT-4oとLLaMA 3.1 405Bのゼロショット性能と比較すると、低リソース言語への変換において、これらのモデルが直面する重要な課題が浮き彫りになっている。
論文 参考訳(メタデータ) (2024-11-18T05:41:27Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。