論文の概要: Back to Patterns: Efficient Japanese Morphological Analysis with
Feature-Sequence Trie
- arxiv url: http://arxiv.org/abs/2305.19045v1
- Date: Tue, 30 May 2023 14:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 16:03:11.933791
- Title: Back to Patterns: Efficient Japanese Morphological Analysis with
Feature-Sequence Trie
- Title(参考訳): Back to Patterns: 特徴系列による効率的な日本語形態素解析
- Authors: Naoki Yoshinaga
- Abstract要約: 本研究は,最も高速なパターンベースNLP法について,可能な限り高精度に再検討する。
提案手法は,形態素辞書と注釈付きデータから信頼性のあるパターンを誘導する。
2つの標準データセットの実験結果から,本手法が学習ベースラインに匹敵する精度を示した。
- 参考スコア(独自算出の注目度): 9.49725486620342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate neural models are much less efficient than non-neural models and are
useless for processing billions of social media posts or handling user queries
in real time with a limited budget. This study revisits the fastest
pattern-based NLP methods to make them as accurate as possible, thus yielding a
strikingly simple yet surprisingly accurate morphological analyzer for
Japanese. The proposed method induces reliable patterns from a morphological
dictionary and annotated data. Experimental results on two standard datasets
confirm that the method exhibits comparable accuracy to learning-based
baselines, while boasting a remarkable throughput of over 1,000,000 sentences
per second on a single modern CPU. The source code is available at
https://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jagger/
- Abstract(参考訳): 正確なニューラルネットワークモデルは、非神経モデルよりもはるかに効率的で、何十億ものソーシャルメディア投稿を処理したり、限られた予算でリアルタイムにユーザクエリを処理するのに役立ちません。
本研究は,最も高速なパターンベースNLP法を再検討し,その精度を極力向上させることにより,日本人にとって驚くほど単純かつ驚くほど正確な形態解析を行う。
提案手法は形態素辞書と注釈データから信頼できるパターンを導出する。
2つの標準データセットの実験結果は、この手法が学習ベースのベースラインに匹敵する精度を示す一方で、1つのモダンCPU上で毎秒1000,000文以上のスループットを誇っていることを確認した。
ソースコードはhttps://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jagger/で入手できる。
関連論文リスト
- The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Embarrassingly Simple Performance Prediction for Abductive Natural
Language Inference [10.536415845097661]
本研究では,NLIモデルの性能を微調整せずに予測する手法を提案する。
その結果,コサイン類似度手法の精度はパーソン相関係数0.65の分類手法の精度と強く相関していることがわかった。
提案手法は,モデル選択の過程において,大幅な時間節約につながる可能性がある。
論文 参考訳(メタデータ) (2022-02-21T18:10:24Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Exploiting Language Model for Efficient Linguistic Steganalysis: An
Empirical Study [23.311007481830647]
言語ステガナリシスを効果的に行うための2つの方法を提案する。
1つはRNNに基づく言語モデルの事前トレーニングであり、もう1つはシーケンスオートエンコーダの事前トレーニングである。
論文 参考訳(メタデータ) (2021-07-26T12:37:18Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。