論文の概要: Idiom Detection in Sorani Kurdish Texts
- arxiv url: http://arxiv.org/abs/2501.14528v1
- Date: Fri, 24 Jan 2025 14:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:57:13.004061
- Title: Idiom Detection in Sorani Kurdish Texts
- Title(参考訳): ソルニ・クルド語のイディオム検出
- Authors: Skala Kamaran Omer, Hossein Hassani,
- Abstract要約: 本研究は,Sorani Kurdishにおける深層学習技術を用いたテキスト分類タスクとしてアプローチすることで,検出に対処する。
我々は、KuBERTベースのトランスフォーマーシーケンス分類、RCNN(Recurrent Convolutional Neural Network)、注意機構を備えたBiLSTMモデルという3つのディープラーニングモデルを開発し、評価した。
評価の結果,変圧器モデルである細調整BERTが他のモデルより一貫して優れており,精度は99%近くであった。
- 参考スコア(独自算出の注目度): 1.174020933567308
- License:
- Abstract: Idiom detection using Natural Language Processing (NLP) is the computerized process of recognizing figurative expressions within a text that convey meanings beyond the literal interpretation of the words. While idiom detection has seen significant progress across various languages, the Kurdish language faces a considerable research gap in this area despite the importance of idioms in tasks like machine translation and sentiment analysis. This study addresses idiom detection in Sorani Kurdish by approaching it as a text classification task using deep learning techniques. To tackle this, we developed a dataset containing 10,580 sentences embedding 101 Sorani Kurdish idioms across diverse contexts. Using this dataset, we developed and evaluated three deep learning models: KuBERT-based transformer sequence classification, a Recurrent Convolutional Neural Network (RCNN), and a BiLSTM model with an attention mechanism. The evaluations revealed that the transformer model, the fine-tuned BERT, consistently outperformed the others, achieving nearly 99% accuracy while the RCNN achieved 96.5% and the BiLSTM 80%. These results highlight the effectiveness of Transformer-based architectures in low-resource languages like Kurdish. This research provides a dataset, three optimized models, and insights into idiom detection, laying a foundation for advancing Kurdish NLP.
- Abstract(参考訳): 自然言語処理(NLP)を用いたイディオム検出(英: Idiom detection)は、単語のリテラル解釈を超えて意味を伝達するテキスト内の図形表現を認識するコンピュータ化されたプロセスである。
イディオムの検出は様々な言語で大きく進歩しているが、機械翻訳や感情分析といったタスクにおいてイディオムの重要性にもかかわらず、クルド語はこの領域でかなりの研究ギャップに直面している。
本研究では,Sorani Kurdishにおけるイディオム検出を,ディープラーニング技術を用いたテキスト分類タスクとしてアプローチする。
そこで我々は101のSorani Kurdishイディオムをさまざまな文脈に埋め込んだ10,580の文を含むデータセットを開発した。
このデータセットを用いて、KuBERTベースのトランスフォーマーシーケンス分類、RCNN(Recurrent Convolutional Neural Network)、注意機構を備えたBiLSTMモデルという3つのディープラーニングモデルを開発し、評価した。
評価の結果、変圧器モデルである細調整のBERTが他のモデルより一貫して優れており、RCNNは96.5%、BiLSTMは80%の精度であった。
これらの結果は、クルド語のような低リソース言語におけるTransformerベースのアーキテクチャの有効性を強調している。
この研究は、データセット、最適化された3つのモデル、イディオム検出に関する洞察を提供し、クルド人のNLPを前進させるための基盤を構築している。
関連論文リスト
- NER- RoBERTa: Fine-Tuning RoBERTa for Named Entity Recognition (NER) within low-resource languages [3.5403652483328223]
本研究は、クルド人NER(KNER)のための事前学習されたRoBERTaモデルの微調整手法を提案する。
実験の結果,SentencePieceトークン化方式で調整したRoBERTaはKNERの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-12-15T07:07:17Z) - End-to-End Transformer-based Automatic Speech Recognition for Northern Kurdish: A Pioneering Approach [1.3689715712707342]
本稿では、中東で話されている低リソース言語である北クルド語(クルマンジ語)に対する事前訓練されたASRモデルであるWhisperの有効性について検討する。
約68時間の検証データを含む北クルド語微調整音声コーパスを用いて,追加のモジュール微調整戦略がASR精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-19T11:46:30Z) - Shifting from endangerment to rebirth in the Artificial Intelligence Age: An Ensemble Machine Learning Approach for Hawrami Text Classification [1.174020933567308]
ハフラミ語(Hawrami)はクルド語の方言で、絶滅危惧言語に分類される。
本稿では2つの母語話者による15のカテゴリにラベル付けされた6,854項目のデータセットを用いて,さまざまなテキスト分類モデルを提案する。
論文 参考訳(メタデータ) (2024-09-25T12:52:21Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Towards Faster k-Nearest-Neighbor Machine Translation [51.866464707284635]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
本手法は,翻訳品質をわずかに低下させることなく,kNN検索のオーバーヘッドを最大53%削減する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Convolutional Neural Networks for Sentiment Analysis on Weibo Data: A
Natural Language Processing Approach [0.228438857884398]
本研究では,Weiboの119,988ツイートのデータセット上で,畳み込みニューラルネットワーク(CNN)を用いた感情分析の複雑な課題に対処する。
CNNに基づくモデルを用いて,特徴抽出に単語埋め込みを活用し,感情分類を行う訓練を行った。
このモデルは、テストセットで平均約0.73のマクロ平均F1スコアを達成し、正、中、負の感情でバランスの取れた性能を示した。
論文 参考訳(メタデータ) (2023-07-13T03:02:56Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。