論文の概要: ParsEL 1.0: Unsupervised Entity Linking in Persian Social Media Texts
- arxiv url: http://arxiv.org/abs/2004.10816v1
- Date: Wed, 22 Apr 2020 19:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:38:47.075244
- Title: ParsEL 1.0: Unsupervised Entity Linking in Persian Social Media Texts
- Title(参考訳): ParsEL 1.0:ペルシャのソーシャルメディアテキストにおける教師なしエンティティリンク
- Authors: Majid Asgari-Bidhendi, Farzane Fakhrian and Behrouz Minaei-Bidgoli
- Abstract要約: ソーシャルメディアデータの大部分は自然言語テキストである。
最近、ペルシャの知識グラフであるFarsBaseが50万近いエンティティを含む形で導入された。
本稿では,教師なしペルシャのエンティティリンクシステムを提案する。
- 参考スコア(独自算出の注目度): 6.866104126509981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, social media data has exponentially increased, which can be
enumerated as one of the largest data repositories in the world. A large
portion of this social media data is natural language text. However, the
natural language is highly ambiguous due to exposure to the frequent
occurrences of entities, which have polysemous words or phrases. Entity linking
is the task of linking the entity mentions in the text to their corresponding
entities in a knowledge base. Recently, FarsBase, a Persian knowledge graph,
has been introduced containing almost half a million entities. In this paper,
we propose an unsupervised Persian Entity Linking system, the first entity
linking system specially focused on the Persian language, which utilizes
context-dependent and context-independent features. For this purpose, we also
publish the first entity linking corpus of the Persian language containing
67,595 words that have been crawled from social media texts of some popular
channels in the Telegram messenger. The output of the proposed method is 86.94%
f-score for the Persian language, which is comparable with the similar
state-of-the-art methods in the English language.
- Abstract(参考訳): 近年、ソーシャルメディアデータは指数関数的に増加しており、世界最大のデータリポジトリの1つとして列挙することができる。
このソーシャルメディアデータの大部分は自然言語テキストである。
しかし、多文語や句を含む実体の頻繁な出現に曝されることから、自然言語は非常に曖昧である。
エンティティリンク(Entity Linking)は、テキスト内のエンティティの参照を知識ベースで対応するエンティティにリンクするタスクである。
最近、ペルシャの知識グラフであるFarsBaseが50万近いエンティティを含む形で導入された。
本稿では,コンテキスト依存および文脈非依存の特徴を生かしたペルシャ言語に特化した最初のエンティティリンクシステムである,教師なしペルシャエンティティリンクシステムを提案する。
この目的のために,Telegramメッセンジャー内の人気チャンネルのソーシャルメディアテキストからクロールされた67,595語を含むペルシャ語の最初のエンティティリンクコーパスも公開している。
提案手法の出力は、ペルシャ語の86.94% f-scoreであり、英語における同様の最先端の手法に匹敵する。
関連論文リスト
- FarSSiBERT: A Novel Transformer-based Model for Semantic Similarity Measurement of Persian Social Networks Informal Texts [0.0]
本稿では,ソーシャルメディアからペルシャの非公式短文間の意味的類似性を測定するための,トランスフォーマーに基づく新しいモデルを提案する。
これは、約9900万のペルシア語の非公式な短文をソーシャルネットワークから事前訓練しており、ペルシア語の一種である。
提案手法はPearsonとSpearmanの係数基準でParsBERT, laBSE, multilingual BERTより優れていた。
論文 参考訳(メタデータ) (2024-07-27T05:04:49Z) - PersianLLaMA: Towards Building First Persian Large Language Model [5.79461948374354]
本稿ではペルシャ語テキストとデータセットの収集に基づいて訓練されたペルシャ語モデルであるペルシャ語モデル(ペルシャ語モデル)を紹介する。
その結果、ペルシャのLLaMAは、ペルシャ語のテキストの理解と生成において、競争相手を著しく上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-12-25T12:48:55Z) - Persian topic detection based on Human Word association and graph
embedding [3.8137985834223507]
本稿では,Human Word Associationに基づくソーシャルメディアのトピック検出フレームワークを提案する。
この地域での作業のほとんどは英語で行われているが、ペルシア語で行われている。
論文 参考訳(メタデータ) (2023-02-20T05:46:47Z) - Knowledge-Grounded Conversational Data Augmentation with Generative
Conversational Networks [76.11480953550013]
生成会話ネットワークを用いて会話データを自動的に生成する。
我々は、Topical Chatデータセット上で、知識のない会話に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-22T22:37:14Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - The Challenges of Persian User-generated Textual Content: A Machine
Learning-Based Approach [0.0]
この研究は、ペルシャのユーザー生成テキストコンテンツがもたらすハードルに対処するために機械学習ベースのアプローチを適用します。
提示されたアプローチは、ペルシア語の感情分析を行うために機械翻訳データセットを使用する。
実験の結果は、これまでの試みとは対照的に、有望な最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-01-20T11:57:59Z) - Named Entity Recognition for Social Media Texts with Semantic
Augmentation [70.44281443975554]
名前付きエンティティ認識のための既存のアプローチは、短いテキストと非公式テキストで実行される場合、データ空間の問題に悩まされる。
そこで我々は,NER によるソーシャルメディアテキストに対するニューラルベースアプローチを提案し,ローカルテキストと拡張セマンティクスの両方を考慮に入れた。
論文 参考訳(メタデータ) (2020-10-29T10:06:46Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - A novel approach to sentiment analysis in Persian using discourse and
external semantic information [0.0]
自然言語で書かれた文書から個人の感情を抽出するための多くのアプローチが提案されている。
これらのアプローチの大半は英語に重点を置いているが、ペルシア語のような資源中心の言語は研究作業や言語資源の欠如に悩まされている。
ペルシア語におけるこのギャップのため、現在の研究はペルシア語に適用される感情分析の新しい手法を導入することを目的としている。
論文 参考訳(メタデータ) (2020-07-18T18:40:40Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。