論文の概要: Feature-Rich Named Entity Recognition for Bulgarian Using Conditional
Random Fields
- arxiv url: http://arxiv.org/abs/2109.15121v1
- Date: Sun, 26 Sep 2021 12:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:10:30.791286
- Title: Feature-Rich Named Entity Recognition for Bulgarian Using Conditional
Random Fields
- Title(参考訳): 条件付きランダム場を用いたブルガリア人の特徴リッチ識別
- Authors: Georgi Georgiev, Preslav Nakov, Kuzman Ganchev, Petya Osenova, Kiril
Ivanov Simov
- Abstract要約: 本稿では,ブルガリア語ニューステキストにおける名前付きエンティティの自動認識と分類に対する機能豊富なアプローチを提案する。
言語固有の語彙情報、構文情報、形態情報と、他の言語でよく使われている特徴を組み合わせる。
- 参考スコア(独自算出の注目度): 14.781426975889111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper presents a feature-rich approach to the automatic recognition and
categorization of named entities (persons, organizations, locations, and
miscellaneous) in news text for Bulgarian. We combine well-established features
used for other languages with language-specific lexical, syntactic and
morphological information. In particular, we make use of the rich tagset
annotation of the BulTreeBank (680 morpho-syntactic tags), from which we derive
suitable task-specific tagsets (local and nonlocal). We further add
domain-specific gazetteers and additional unlabeled data, achieving F1=89.4%,
which is comparable to the state-of-the-art results for English.
- Abstract(参考訳): 本論文はブルガリア語ニューステキストにおける名前付きエンティティ(人、組織、場所、雑種)の自動認識と分類に対する特徴豊富なアプローチを提案する。
言語固有の語彙情報、構文情報、形態情報と、他の言語でよく使われている特徴を組み合わせる。
特に,BulTreeBankのリッチなタグセットアノテーション(680のモルフォ・シンタクティックタグ)を用いて,タスク固有のタグセット(ローカルおよび非ローカル)を導出する。
さらに、ドメイン固有のガゼッタとラベルなしのデータを追加し、F1=89.4%を達成しました。
関連論文リスト
- Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - Forget NLI, Use a Dictionary: Zero-Shot Topic Classification for Low-Resource Languages with Application to Luxembourgish [6.6635650150737815]
NLPでは、ゼロショット分類(ゼロショット分類、ゼロショット分類、ZSC)は、ターゲットクラスのラベル付き例を使わずに、ラベルをテキストデータに割り当てるタスクである。
辞書をZSCのデータソースとして活用する代替ソリューションを提案する。
我々は、ルクセンブルクで話される低リソース言語であるLuxembourgishに注目し、新しいトピック関連分類データセットを2つ構築する。
論文 参考訳(メタデータ) (2024-04-05T06:35:31Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Statistical and Neural Methods for Cross-lingual Entity Label Mapping in
Knowledge Graphs [4.466084612775998]
ウィキデータから抽出した言語間エンティティラベルを10言語でアライメントするための単語と文のアライメント手法の適用について検討する。
この結果から,Wikidata の主要なラベル間のマッピングは,採用手法によって大幅に改善(F1スコアの20ドルポイントまで)されていることが示唆された。
論文 参考訳(メタデータ) (2022-06-17T11:57:08Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - MarkBERT: Marking Word Boundaries Improves Chinese BERT [67.53732128091747]
MarkBERTは、語彙を漢字として保持し、連続した単語間の境界マーカーを挿入する。
従来の単語ベースのBERTモデルと比較して、MarkBERTはテキスト分類、キーワード認識、意味的類似性タスクにおいて精度が向上している。
論文 参考訳(メタデータ) (2022-03-12T08:43:06Z) - Global Attention for Name Tagging [56.62059996864408]
ローカル、文書レベル、コーパスレベルのコンテキスト情報を活用することで、名前タグを改善するための新しいフレームワークを提案する。
本研究では,グローバルな注意を介し,文書レベルのコンテキスト情報とコーパスレベルのコンテキスト情報と,局所的なコンテキスト情報とを組み込むことを学習するモデルを提案する。
ベンチマークデータセットの実験は、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-10-19T07:27:15Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Classification of Chinese Handwritten Numbers with Labeled Projective
Dictionary Pair Learning [1.8594711725515674]
我々は,識別可能性,空間性,分類誤差の3つの要因を取り入れたクラス固有辞書を設計する。
我々は、辞書原子を生成するために、新しい特徴空間、すなわち、向き付け勾配(HOG)のヒストグラムを採用する。
その結果,最先端のディープラーニング技術と比較して,分類性能が向上した(sim98%)。
論文 参考訳(メタデータ) (2020-03-26T01:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。