論文の概要: Analogies minus analogy test: measuring regularities in word embeddings
- arxiv url: http://arxiv.org/abs/2010.03446v1
- Date: Wed, 7 Oct 2020 14:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:10:02.952295
- Title: Analogies minus analogy test: measuring regularities in word embeddings
- Title(参考訳): アナロジー マイナスアナロジーテスト:単語埋め込みにおける正規性の測定
- Authors: Louis Fournier, Emmanuel Dupoux, Ewan Dunbar
- Abstract要約: 我々は古典的な算術語類似性テストを分析する。
標準的なアナロジーテストには欠陥があるが、いくつかの一般的な単語埋め込みは言語規則性を符号化している。
- 参考スコア(独自算出の注目度): 16.17210734551503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector space models of words have long been claimed to capture linguistic
regularities as simple vector translations, but problems have been raised with
this claim. We decompose and empirically analyze the classic arithmetic word
analogy test, to motivate two new metrics that address the issues with the
standard test, and which distinguish between class-wise offset concentration
(similar directions between pairs of words drawn from different broad classes,
such as France--London, China--Ottawa, ...) and pairing consistency (the
existence of a regular transformation between correctly-matched pairs such as
France:Paris::China:Beijing). We show that, while the standard analogy test is
flawed, several popular word embeddings do nevertheless encode linguistic
regularities.
- Abstract(参考訳): 単語のベクトル空間モデルは、言語規則性を単純なベクトル変換として捉えていると長年主張されてきたが、この主張によって問題が提起されている。
古典的算術語類似性テスト(英語版)を分解・実証的に分析し、標準テストの問題に対処する2つの新しいメトリクスを動機付け、クラスワイドオフセット濃度(例えばフランス-ロンドン、中国-オタワ、...)とペアリング一貫性(例えばフランス:パリ:中国:北京)を区別する。
標準的なアナロジーテストには欠陥があるが、いくつかの一般的な単語埋め込みは言語規則性を符号化している。
関連論文リスト
- Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Spoken Word2Vec: Learning Skipgram Embeddings from Speech [0.8901073744693314]
本研究では,入力単位が音響的に相関している場合に,スワップスキップグラムのようなアルゴリズムが分布意味論を符号化できないことを示す。
そこで本研究では,モデルのエンド・ツー・エンドの代替案の可能性を説明し,その結果の埋め込みへの影響について検討する。
論文 参考訳(メタデータ) (2023-11-15T19:25:29Z) - On Parsing as Tagging [66.31276017088477]
そこで我々は,現在最先端の選挙区タグであるテトラタグを減らして,シフト-リデュース解析を行う方法を示す。
我々は、線形化器、学習者、復号器の異なる選択でタグ付けパイプラインの分類を実証的に評価する。
論文 参考訳(メタデータ) (2022-11-14T13:37:07Z) - Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal
Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。
自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文 参考訳(メタデータ) (2022-10-06T23:39:01Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Logical Inferences with Comparatives and Generalized Quantifiers [18.58482811176484]
自然言語推論タスクでは,比較のための論理推論システムが十分に開発されていない。
英語の様々な比較構成をカテゴリー文法(CCG)を通して意味表現にマッピングする構成意味論を提案する。
このシステムは,最近のディープラーニングモデルと同様に,従来の論理ベースのシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-16T11:11:48Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Style-transfer and Paraphrase: Looking for a Sensible Semantic
Similarity Metric [18.313879914379005]
文献で広く使われている指標のどれも、これらの課題における人間の判断に十分近いものではないことを示す。
最近提案されたいくつかのメトリクスは同等の結果を提供するが、Word Mover Distanceが最も合理的なソリューションであることが示されている。
論文 参考訳(メタデータ) (2020-04-10T11:52:06Z) - Sentence Analogies: Exploring Linguistic Relationships and Regularities
in Sentence Embeddings [39.49185247953114]
一般に使われている文ベクトル表現空間が、ある種類の正規性をどの程度反映しているかを考察する。
本実験では,BERTスタイルの文脈埋め込みを含む文埋め込み手法について検討した。
異なるモデルが、そのような規則性を反映する能力において、大きく異なることが分かる。
論文 参考訳(メタデータ) (2020-03-09T10:58:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。