論文の概要: How (Non-)Optimal is the Lexicon?
- arxiv url: http://arxiv.org/abs/2104.14279v1
- Date: Thu, 29 Apr 2021 11:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 13:04:59.750954
- Title: How (Non-)Optimal is the Lexicon?
- Title(参考訳): いかにして(ノン)最適なレキシコンか?
- Authors: Tiago Pimentel, Irene Nikkarinen, Kyle Mahowald, Ryan Cotterell,
Dami\'an Blasi
- Abstract要約: 我々は,レキシコンの符号化理論的な見方を取り入れ,新しい生成統計モデルを用いる。
7つの類型的多様言語からコーパスを抽出し、これらの上限を用いてレキシコンの最適性を定量化する。
我々は、(構成的)形態学とグラフ戦術が自然符号の複雑さのほとんどを十分に説明できることを発見した。
- 参考スコア(独自算出の注目度): 35.91590073820011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mapping of lexical meanings to wordforms is a major feature of natural
languages. While usage pressures might assign short words to frequent meanings
(Zipf's law of abbreviation), the need for a productive and open-ended
vocabulary, local constraints on sequences of symbols, and various other
factors all shape the lexicons of the world's languages. Despite their
importance in shaping lexical structure, the relative contributions of these
factors have not been fully quantified. Taking a coding-theoretic view of the
lexicon and making use of a novel generative statistical model, we define upper
bounds for the compressibility of the lexicon under various constraints.
Examining corpora from 7 typologically diverse languages, we use those upper
bounds to quantify the lexicon's optimality and to explore the relative costs
of major constraints on natural codes. We find that (compositional) morphology
and graphotactics can sufficiently account for most of the complexity of
natural codes -- as measured by code length.
- Abstract(参考訳): 単語形式への語彙的意味のマッピングは自然言語の主要な特徴である。
使用圧は短い単語を頻繁な意味(Zipfの省略法則)に割り当てるが、生産的でオープンな語彙の必要性、記号列の局所的な制約、その他の様々な要因は、すべて世界の言語の語彙を形成する。
語彙構造の形成におけるそれらの重要性にもかかわらず、これらの要因の相対的貢献は完全に定量化されていない。
本稿では,レキシコンの符号化理論的視点と新しい生成統計モデルを用いて,様々な制約の下でレキシコンの圧縮性に関する上限を定義する。
7つの類型的多様言語からコーパスを抽出し、これらの上限を用いてレキシコンの最適性を定量化し、自然符号に対する大きな制約の相対コストを探索する。
コードの長さによって測られるように、(構成的な)形態学とグラフ戦術は、自然なコードの複雑さの大部分を十分に説明できる。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - Representing Interlingual Meaning in Lexical Databases [5.654039329474587]
既存の語彙データベースには、文化的特化語に対する表現性が低下する構造的制限があることを示す。
特に、英語のような支配的な言語の語彙的意味空間はより正確に表現され、言語的または文化的に多様な言語は近似的にマッピングされる。
論文 参考訳(メタデータ) (2023-01-22T17:41:29Z) - Lexically-constrained Text Generation through Commonsense Knowledge
Extraction and Injection [62.071938098215085]
我々は、ある入力概念のセットに対して妥当な文を生成することを目的としているcommongenベンチマークに焦点を当てる。
生成したテキストの意味的正しさを高めるための戦略を提案する。
論文 参考訳(メタデータ) (2020-12-19T23:23:40Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - A Broad-Coverage Deep Semantic Lexicon for Verbs [3.219005794369446]
COLLIE-Vは動詞のための深い語彙資源であり、WordNetと既存のリソースを満足または超越する意味的な詳細を網羅している。
新しい存在論的概念と語彙的エントリは、意味的役割の選好とentailment axiomとともに自動的に導出される。
論文 参考訳(メタデータ) (2020-07-06T12:03:14Z) - Neural Polysynthetic Language Modelling [15.257624461339867]
高リソース言語では、一般的なアプローチは、共通の根の形態的固有の変種を、完全に独立した単語タイプとして扱うことである。
これは、根あたりの屈折が限られており、大多数が十分な大きさのコーパスに現れると仮定する。
4つの多義語に対する言語モデリング,機械翻訳,テキスト予測の現状について検討する。
論文 参考訳(メタデータ) (2020-05-11T22:57:04Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。