論文の概要: Homonym Sense Disambiguation in the Georgian Language
- arxiv url: http://arxiv.org/abs/2405.00710v1
- Date: Wed, 24 Apr 2024 21:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-05 17:44:45.369777
- Title: Homonym Sense Disambiguation in the Georgian Language
- Title(参考訳): グルジア語におけるHomonym Sense Disambiguation
- Authors: Davit Melikidze, Alexander Gamkrelidze,
- Abstract要約: 本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This research proposes a novel approach to the Word Sense Disambiguation (WSD) task in the Georgian language, based on supervised fine-tuning of a pre-trained Large Language Model (LLM) on a dataset formed by filtering the Georgian Common Crawls corpus. The dataset is used to train a classifier for words with multiple senses. Additionally, we present experimental results of using LSTM for WSD. Accurately disambiguating homonyms is crucial in natural language processing. Georgian, an agglutinative language belonging to the Kartvelian language family, presents unique challenges in this context. The aim of this paper is to highlight the specific problems concerning homonym disambiguation in the Georgian language and to present our approach to solving them. The techniques discussed in the article achieve 95% accuracy for predicting lexical meanings of homonyms using a hand-classified dataset of over 7500 sentences.
- Abstract(参考訳): 本研究では,ジョージアの共通crawlsコーパスをフィルタリングしたデータセットに基づいて,事前学習した大規模言語モデル(LLM)の教師付き微調整に基づいて,ジョージア語における単語センス曖昧化(WSD)タスクに対する新しいアプローチを提案する。
データセットは、複数の感覚を持つ単語の分類器を訓練するために使用される。
さらに,WSDにLSTMを用いた実験結果について報告する。
正確な曖昧な同義語は自然言語処理において不可欠である。
グルジア語はカルトヴェリア語族に属する不可解な言語であり、この文脈で固有の課題を提示している。
本研究の目的は、グルジア語における同義語曖昧化に関する特定の問題を強調し、その解決に向けた我々のアプローチを示すことである。
本稿で論じる手法は、7500以上の文を手書き分類したデータセットを用いて、同義語の語彙的意味を予測するための95%の精度を達成している。
関連論文リスト
- Explanation based In-Context Demonstrations Retrieval for Multilingual Grammatical Error Correction [19.95974494301433]
文法的誤り訂正(英: Grammatical error correction, GEC)は、自然言語テキストにおける文法的誤り、綴り、意味的誤りを補正することを目的としている。
自然言語文法的誤り説明(GEE)に基づく新しい検索手法を提案する。
提案手法は,テスト入力のGEEと事前構築したデータベースのサンプルとをマッチングすることにより,適切な小ショットのデモを検索する。
論文 参考訳(メタデータ) (2025-02-12T15:41:43Z) - GARI: Graph Attention for Relative Isomorphism of Arabic Word Embeddings [10.054788741823627]
語彙誘導(BLI)はNLPの中核的な問題であり、個々の埋め込み空間の相対同型に依存する。
異なる埋め込み空間の相対同型を制御しようとする既存の試みは、意味論的に関連する単語の影響を組み込むことができない。
本稿では,分散学習目標とグラフアテンションネットワークによって導かれる多重同型損失を組み合わせたGARIを提案する。
論文 参考訳(メタデータ) (2023-10-19T18:08:22Z) - Combating the Curse of Multilinguality in Cross-Lingual WSD by Aligning
Sparse Contextualized Word Representations [0.0]
本稿では,辞書学習による文脈表現の疎化の有効性を示す厳密な実験を報告する。
以上の結果から,Fスコアの平均値が6.5ポイント近く向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-25T19:20:50Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Language models in word sense disambiguation for Polish [0.0]
ニューラル言語モデルを用いて、あいまいな単語と同じような単語を予測する。
これらの単語に基づいて,単語知覚の分割を異なる方法で予測する。
論文 参考訳(メタデータ) (2021-11-27T20:47:53Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。