論文の概要: Automatic generation of a large dictionary with
concreteness/abstractness ratings based on a small human dictionary
- arxiv url: http://arxiv.org/abs/2206.06200v1
- Date: Mon, 13 Jun 2022 14:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 15:55:45.918002
- Title: Automatic generation of a large dictionary with
concreteness/abstractness ratings based on a small human dictionary
- Title(参考訳): 小型人辞書に基づく具体性・難易度評価付き大辞書の自動生成
- Authors: Vladimir Ivanov, Valery Solovyev
- Abstract要約: 本稿では,単語の自動格付け手法を提案する。
この手法は英語の大規模なテストセットで評価されている。
予測された評価と専門家の評価の相関は、最先端の手法と比較して高い。
- 参考スコア(独自算出の注目度): 0.701955947252181
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Concrete/abstract words are used in a growing number of psychological and
neurophysiological research. For a few languages, large dictionaries have been
created manually. This is a very time-consuming and costly process. To generate
large high-quality dictionaries of concrete/abstract words automatically one
needs extrapolating the expert assessments obtained on smaller samples. The
research question that arises is how small such samples should be to do a good
enough extrapolation. In this paper, we present a method for automatic ranking
concreteness of words and propose an approach to significantly decrease amount
of expert assessment. The method has been evaluated on a large test set for
English. The quality of the constructed dictionaries is comparable to the
expert ones. The correlation between predicted and expert ratings is higher
comparing to the state-of-the-art methods.
- Abstract(参考訳): 具体的/抽象的な言葉は、心理学的・神経生理学的研究の増加に使われている。
いくつかの言語では、大きな辞書が手作業で作成されている。
これは非常に時間がかかり、コストがかかるプロセスです。
より小さなサンプルで得られた専門家評価を外挿する必要があるコンクリート/コンクリートの単語の高品質辞書を自動で生成する。
研究上の疑問は、このようなサンプルがどの程度小さくして十分な外挿を行うべきかである。
本稿では,単語の自動格付け手法を提案するとともに,専門家評価の量を大幅に削減するためのアプローチを提案する。
この手法は英語の大規模なテストセットで評価されている。
構築された辞書の品質は専門家に匹敵する。
予測された評価と専門家の評価の相関は、最先端の手法と比較して高い。
関連論文リスト
- Morphological evaluation of subwords vocabulary used by BETO language model [0.1638581561083717]
サブワードのトークン化アルゴリズムはより効率的で、人間の介入なしに単語とサブワードの語彙を独立して構築することができる。
本研究では,これらの語彙と言語の形態の重なり合いに着目し,語彙の形態的品質を評価する手法を提案する。
この手法をBPE,Wordpiece,Unigramの3つのサブワードトークン化アルゴリズムによって生成された語彙に適用することにより,これらの語彙は一般に非常に低い形態的品質を示すと結論付けた。
この評価は、著者の主張の不整合を考慮し、トークン化器、すなわちWordpieceが使用するアルゴリズムを明らかにするのに役立ちます。
論文 参考訳(メタデータ) (2024-10-03T08:07:14Z) - Low-Cost Generation and Evaluation of Dictionary Example Sentences [2.3927685342928466]
我々は、既存のオックスフォード辞書文に対して生成された文の勝利率を測定する、OxfordEvalと呼ばれる新しい自動評価指標を導入する。
単語の意味を最もよく表す文を識別し、選択するために、マスク付き言語モデルを用いた新しいアプローチでこれを補完する。
最終的なモデルであるFM-MLMはオックスフォードの基準文に対して85.1%以上の勝利率を達成したが、以前のモデル生成文では39.8%の勝利率であった。
論文 参考訳(メタデータ) (2024-04-09T11:26:59Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - Embedding Compression for Text Classification Using Dictionary Screening [8.308609870092884]
テキスト分類タスクに圧縮を埋め込むための辞書スクリーニング手法を提案する。
提案手法は,パラメータ,平均テキストシーケンス,辞書サイズを大幅に削減する。
論文 参考訳(メタデータ) (2022-11-23T05:32:13Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Studying word order through iterative shuffling [14.530986799844873]
NLPベンチマークタスクの実行には,単語順序エンコードが不可欠であることを示す。
我々は、固定言語モデルの下で最も高い確率を持つ単語の袋を注文する、新しい効率的な手続きであるBISを使用する。
IBISのような推論手順のシャッフルが言語モデリングや制約付き生成にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-09-10T13:27:06Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - PREDICT: Persian Reverse Dictionary [0.0]
ペルシャ逆辞書実装のための4つの異なるアーキテクチャの比較 (予測)
我々は,オンラインで利用可能な唯一のペルシア語辞書から抽出した (phrase,word) 単語を用いてモデルを評価する。
実験では、付加的注意メカニズムによって強化されたLong Short-Term Memory(LSTM)単位からなるモデルが、元の辞書の単語に匹敵する(場合によってはより良い)提案を作成するのに十分であることを示している。
論文 参考訳(メタデータ) (2021-05-01T17:37:01Z) - Tweet Sentiment Quantification: An Experimental Re-Evaluation [88.60021378715636]
センチメント定量化(Sentiment Quantification)は、教師付き学習によって、感情関連クラスの相対周波数(prevalence')を推定するタスクである。
統合され、より堅牢な実験プロトコルに従って、これらの定量化手法を再評価する。
結果はガオ・ガオ・セバスティアーニ(Gao Gao Sebastiani)によって得られたものとは大きく異なり、異なる感情量化法の相対的な強さと弱さについて、よりしっかりとした理解を提供する。
論文 参考訳(メタデータ) (2020-11-04T21:41:34Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。