論文の概要: LFTK: Handcrafted Features in Computational Linguistics
- arxiv url: http://arxiv.org/abs/2305.15878v1
- Date: Thu, 25 May 2023 09:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:06:04.303772
- Title: LFTK: Handcrafted Features in Computational Linguistics
- Title(参考訳): LFTK:計算言語学における手作りの特徴
- Authors: Bruce W. Lee, Jason Hyung-Jong Lee
- Abstract要約: 過去の文献に基づく220以上の人気手工芸品を収集・分類した。
いくつかのタスク固有のデータセットについて相関分析を行い、各特徴の潜在的なユースケースを報告する。
体系的に拡張可能な多言語ハンドクラフト言語特徴抽出システムを考案する。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Past research has identified a rich set of handcrafted linguistic features
that can potentially assist various tasks. However, their extensive number
makes it difficult to effectively select and utilize existing handcrafted
features. Coupled with the problem of inconsistent implementation across
research works, there has been no categorization scheme or generally-accepted
feature names. This creates unwanted confusion. Also, most existing handcrafted
feature extraction libraries are not open-source or not actively maintained. As
a result, a researcher often has to build such an extraction system from the
ground up.
We collect and categorize more than 220 popular handcrafted features grounded
on past literature. Then, we conduct a correlation analysis study on several
task-specific datasets and report the potential use cases of each feature.
Lastly, we devise a multilingual handcrafted linguistic feature extraction
system in a systematically expandable manner. We open-source our system for
public access to a rich set of pre-implemented handcrafted features. Our system
is coined LFTK and is the largest of its kind. Find it at
github.com/brucewlee/lftk.
- Abstract(参考訳): 過去の研究で、様々なタスクに役立つ豊富な手作りの言語特徴が特定された。
しかし、その膨大な数が既存の手作りの機能を効果的に選択し活用することは困難である。
研究における一貫性のない実装の問題と相まって、分類スキームや一般に受け入れられる特徴名は存在しない。
これは望ましくない混乱を引き起こす。
また、既存の手作りの機能抽出ライブラリのほとんどはオープンソースではない。
結果として、研究者はしばしばそのような抽出システムをゼロから構築しなければならない。
過去の文献に基づく220以上の人気手工芸品を収集・分類した。
次に,複数のタスク固有のデータセットの相関分析を行い,各特徴の潜在的なユースケースを報告する。
最後に,多言語手作り言語特徴抽出システムを体系的に拡張可能な方法で考案する。
我々は,実装済みの豊富な手作り機能にパブリックアクセスするためのシステムをオープンソース化した。
我々のシステムはLFTKと呼ばれており、その種類の中で最大である。
github.com/brucewlee/lftkを参照。
関連論文リスト
- Multilingual Entity Linking Using Dense Retrieval [0.0]
本論文では,複数の言語で高速に学習・操作できるシステムを開発する。
我々の研究は、限られたリソースでも複数の言語で動作する競争力のあるニューラルネットワークベースのELシステムを構築することが可能であることを示している。
論文 参考訳(メタデータ) (2024-05-13T18:57:27Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - Modeling Multi-Granularity Hierarchical Features for Relation Extraction [26.852869800344813]
本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。
外部知識を必要とせずに,効果的な構造的特徴が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-09T09:44:05Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - SIGTYP 2020 Shared Task: Prediction of Typological Features [78.95376120154083]
タイポロジーKBが広く採用されるのを妨げる大きな欠点は、人口が少ないことである。
類型的特徴は相互に相関することが多いため、それらを予測し、自動的に類型的KBを投入することができる。
全体として、このタスクは5つのチームから8つの応募を惹きつけた。
論文 参考訳(メタデータ) (2020-10-16T08:47:24Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - Feature Selection on Noisy Twitter Short Text Messages for Language
Identification [0.0]
アルゴリズムの効果を分析するために,様々な学習アルゴリズムに異なる特徴選択アルゴリズムを適用した。
この手法は、Twitterから抽出された6903ツイートの新しいデータセットを用いた単語レベルの言語識別に焦点を当てている。
論文 参考訳(メタデータ) (2020-07-11T09:22:01Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。