論文の概要: Feature Selective Likelihood Ratio Estimator for Low- and Zero-frequency
N-grams
- arxiv url: http://arxiv.org/abs/2111.03350v1
- Date: Fri, 5 Nov 2021 09:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 15:10:30.694106
- Title: Feature Selective Likelihood Ratio Estimator for Low- and Zero-frequency
N-grams
- Title(参考訳): 低周波・ゼロ周波N-gramの特徴選択比推定器
- Authors: Masato Kikuchi and Mitsuo Yoshida and Kyoji Umemura and Tadachika
Ozono
- Abstract要約: 自然言語処理(NLP)では、N-gramの確率比(LR)が周波数情報からしばしば推定される。
コーパスは可能なN-グラムのごく一部しか含んでおらず、ほとんどはまれに発生する。
低周波および0周波N-gramに対するLR推定器を提案する。
- 参考スコア(独自算出の注目度): 0.4588028371034407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In natural language processing (NLP), the likelihood ratios (LRs) of N-grams
are often estimated from the frequency information. However, a corpus contains
only a fraction of the possible N-grams, and most of them occur infrequently.
Hence, we desire an LR estimator for low- and zero-frequency N-grams. One way
to achieve this is to decompose the N-grams into discrete values, such as
letters and words, and take the product of the LRs for the values. However,
because this method deals with a large number of discrete values, the running
time and memory usage for estimation are problematic. Moreover, use of
unnecessary discrete values causes deterioration of the estimation accuracy.
Therefore, this paper proposes combining the aforementioned method with the
feature selection method used in document classification, and shows that our
estimator provides effective and efficient estimation results for low- and
zero-frequency N-grams.
- Abstract(参考訳): 自然言語処理(NLP)では、N-gramの確率比(LR)が周波数情報からしばしば推定される。
しかし、コーパスは可能なN-グラムのごく一部しか含んでおらず、ほとんどは頻繁に起こる。
したがって、低周波および零周波N-gramに対するLR推定器を求める。
これを実現する一つの方法は、N-グラムを文字や単語などの離散値に分解し、LRの積を値として取ることである。
しかし、この手法は多くの離散値を扱うため、推定のための実行時間とメモリ使用量は問題となる。
また、不要な離散値を用いることで推定精度が低下する。
そこで本稿では, 上記の手法と文書分類に用いる特徴選択法を組み合わせることで, 低周波およびゼロ周波のN-gramに対して有効かつ効率的な推定結果が得られることを示す。
関連論文リスト
- Improving Interpretability of Scores in Anomaly Detection Based on Gaussian-Bernoulli Restricted Boltzmann Machine [0.0]
GBRBMによる異常検出では、GBRBMのエネルギー関数と同一のスコアに基づいて正規値と異常値のデータを分類する。
本稿では,その累積分布に基づいて,スコアの解釈可能性を向上させる尺度を提案する。
また、解釈可能な尺度を用いてしきい値を設定するためのガイドラインを確立する。
論文 参考訳(メタデータ) (2024-03-19T12:13:52Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Conservative Likelihood Ratio Estimator for Infrequent Data Slightly
above a Frequency Threshold [0.0]
ネーブ確率比推定は、頻度の低いデータに対してLRを過大評価することができる。
この問題を回避する1つのアプローチは、周波数閾値を使用して、しきい値以下の周波数に対して推定値を0に設定することである。
本研究は、低周波のしきい値よりわずかに高い保守的推定器を提案する。
論文 参考訳(メタデータ) (2022-10-28T10:02:20Z) - An adjoint-free algorithm for conditional nonlinear optimal perturbations (CNOPs) via sampling [5.758073912084367]
我々は、条件付き非線形最適摂動(CNOP)を得るための最先端統計機械学習技術に基づくサンプリングアルゴリズムを提案する。
サンプリング手法は、目的関数値(ゼロ次情報)への勾配を直接減少させる
本研究では, 空間パターン, 目的値, 定量化計算時間, 非線形誤差成長を用いて得られたCNOPを実証する。
論文 参考訳(メタデータ) (2022-08-01T16:07:22Z) - Unified Likelihood Ratio Estimation for High- to Zero-frequency N-grams [1.3124513975412255]
自然言語処理では、要素は$N$-gramと呼ばれる$N$アイテムの連続列である。
N$-gram周波数のみを使用する単純推定手法は、低周波(希)$N$-gramに敏感である。
N$-gramをアイテム単位に分解し、元の$N$-gramの周波数とともにそれらの周波数を適用する方法を提案する。
論文 参考訳(メタデータ) (2021-10-03T07:44:16Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Learned Block Iterative Shrinkage Thresholding Algorithm for
Photothermal Super Resolution Imaging [52.42007686600479]
深層ニューラルネットワークに展開する反復アルゴリズムを用いて,学習したブロックスパース最適化手法を提案する。
本稿では、正規化パラメータの選択を学ぶことができる学習ブロック反復収縮しきい値アルゴリズムを使用することの利点を示す。
論文 参考訳(メタデータ) (2020-12-07T09:27:16Z) - Generalized figure of merit for qubit readout [0.0]
フォールトトレラント量子計算への多くの有望なアプローチは、量子ビット(量子ビット)のようなバイナリ可観測物の繰り返し量子非復号(QND)の読み出しを必要とする。
これらの結果は、qubitreadoutのための統一されたフレームワークを提供し、すべてのプラットフォームにわたる短期量子デバイスの最適化とエンジニアリングを容易にする。
論文 参考訳(メタデータ) (2020-08-19T18:45:11Z) - Modeling Personalized Item Frequency Information for Next-basket
Recommendation [63.94555438898309]
次世代レコメンデーション(NBR)は、電子商取引や小売業界で一般的である。
既存のRNNでは,レコメンデーションシナリオにおいて,アイテムの周波数情報を直接キャプチャすることはできない。
我々はこれらの臨界信号を直接利用する簡単なアイテム周波数に基づくk-nearest neighbors (kNN)法を提案する。
論文 参考訳(メタデータ) (2020-05-31T16:42:39Z) - Towards GAN Benchmarks Which Require Generalization [48.075521136623564]
関数を推定するにはモデルからの大きなサンプルが必要であると我々は主張する。
我々は、分布を区別するために訓練されたニューラルネットワークの用語で定義されるニューラルネットワーク分散(NND)に目を向ける。
結果として得られたベンチマークは、トレーニングセットの記憶によって"ウォン"することはできないが、それでも知覚的に相関があり、サンプルからのみ計算可能である。
論文 参考訳(メタデータ) (2020-01-10T20:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。