論文の概要: Named Entity Extraction with Finite State Transducers
- arxiv url: http://arxiv.org/abs/2006.11548v1
- Date: Sat, 20 Jun 2020 11:09:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:01:55.212457
- Title: Named Entity Extraction with Finite State Transducers
- Title(参考訳): 有限状態トランスデューサを用いた名前付きエンティティ抽出
- Authors: Diego Alexander Hu\'erfano Villalba and Elizabeth Le\'on Guzm\'an
- Abstract要約: 最小限の言語知識を必要とする名前付きエンティティタグシステムについて述べる。
このシステムはBrillのタグのアイデアに基づいており、非常にシンプルです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a named entity tagging system that requires minimal linguistic
knowledge and can be applied to more target languages without substantial
changes. The system is based on the ideas of the Brill's tagger which makes it
really simple. Using supervised machine learning, we construct a series of
automatons (or transducers) in order to tag a given text. The final model is
composed entirely of automatons and it requires a lineal time for tagging. It
was tested with the Spanish data set provided in the CoNLL-$2002$ attaining an
overall $F_{\beta = 1}$ measure of $60\%.$ Also, we present an algorithm for
the construction of the final transducer used to encode all the learned
contextual rules.
- Abstract(参考訳): 本稿では,言語知識が最小限で,よりターゲット言語に適用可能な名前付きエンティティタグ付けシステムについて述べる。
このシステムは、brill's taggerのアイデアに基づいているので、非常にシンプルです。
教師付き機械学習を用いて、与えられたテキストにタグを付けるために一連のオートマトン(あるいはトランスデューサ)を構築する。
最終モデルはオートマトンで構成されており、タグ付けには直線的な時間を要する。
これは、CoNLL-$2002$のスペイン語データセットでテストされ、全体的な$F_{\beta = 1}$の値が60\%に達した。
さらに,学習した文脈ルールをすべてエンコードするために使用する最終変換器の構成アルゴリズムも提示する。
関連論文リスト
- Automating Thought of Search: A Journey Towards Soundness and Completeness [20.944440404347908]
大型言語モデル (LLMs) の定番の1つとして計画が残っている。
ToS(Thought of Search)は、計画上の問題を解決するループから人間を完全に取り除きます。
評価されたすべての領域の様々な大きさのLLMを用いて、最小限のフィードバックで100%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-21T04:19:52Z) - Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass [72.07642648108849]
Superposed Decodingは、1つの自己回帰推論パスのコストで$k$のドラフトを生成する新しい復号アルゴリズムである。
Superposed Decodingは、他のデコード戦略と組み合わせることで、推論時間計算のスケーリング時に普遍的なカバレッジが向上する。
論文 参考訳(メタデータ) (2024-05-28T17:40:48Z) - Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。
これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。
次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文 参考訳(メタデータ) (2024-01-30T19:03:49Z) - Introducing Rhetorical Parallelism Detection: A New Task with Datasets,
Metrics, and Baselines [8.405938712823565]
parallelism$は、同じ言語的特徴を持つ句の並置である。
並列性の多様さにもかかわらず、自然言語処理の分野は滅多に研究されていない。
我々は、その公式な定義を構築し、新しいラテンデータセットと適応した中国語データセットを1つ提供し、その上でのパフォーマンスを評価するためのメトリクスのファミリーを確立します。
論文 参考訳(メタデータ) (2023-11-30T15:24:57Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - On the Intersection of Context-Free and Regular Languages [71.61206349427509]
我々はBar-Hillel構造を一般化し、$varepsilon$-arcsで有限状態オートマトンを扱う。
我々の構成が入力オートマトンと文法の両方の構造を符号化し、元の構成のサイズを維持した文法につながることを証明している。
論文 参考訳(メタデータ) (2022-09-14T17:49:06Z) - Automatic question generation based on sentence structure analysis using
machine learning approach [0.0]
本稿では,英語の非構造化テキストから事実質問を生成するための枠組みを紹介する。
文パターンに基づく従来の言語アプローチと、いくつかの機械学習手法を組み合わせる。
フレームワークには、生成された質問の品質を見積もる質問評価モジュールも含まれている。
論文 参考訳(メタデータ) (2022-05-25T14:35:29Z) - Breaking Writer's Block: Low-cost Fine-tuning of Natural Language
Generation Models [62.997667081978825]
ライターのブロックを解くという問題に対して,自然言語生成モデルを微調整するシステムについて述べる。
提案した微調整は, 少数のエポックとUSD150の総コストを伴っても, 優れた結果が得られる。
論文 参考訳(メタデータ) (2020-12-19T11:19:11Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - DeCLUTR: Deep Contrastive Learning for Unsupervised Textual
Representations [4.36561468436181]
教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。
本手法は,ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋めるものである。
私たちのコードと事前訓練されたモデルは公開されており、新しいドメインに簡単に適応したり、目に見えないテキストを埋め込むのに使えます。
論文 参考訳(メタデータ) (2020-06-05T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。