論文の概要: Predicting cross-linguistic adjective order with information gain
- arxiv url: http://arxiv.org/abs/2012.15263v1
- Date: Wed, 30 Dec 2020 18:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 11:05:13.879150
- Title: Predicting cross-linguistic adjective order with information gain
- Title(参考訳): 情報ゲインを用いた言語横断形容詞順序予測
- Authors: William Dyer, Richard Futrell, Zoey Liu, and Gregory Scontras
- Abstract要約: 我々は,情報ゲインの最大化に基づく形容詞順の新しい定量化を推し進める。
32の言語にまたがって、好まれる形容詞の順序は、情報獲得を最大化する効率的なアルゴリズムをほとんど反映している。
- 参考スコア(独自算出の注目度): 8.380439657099906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Languages vary in their placement of multiple adjectives before, after, or
surrounding the noun, but they typically exhibit strong intra-language
tendencies on the relative order of those adjectives (e.g., the preference for
`big blue box' in English, `grande bo\^{i}te bleue' in French, and
`alsund\={u}q al'azraq alkab\={\i}r' in Arabic). We advance a new quantitative
account of adjective order across typologically-distinct languages based on
maximizing information gain. Our model addresses the left-right asymmetry of
French-type ANA sequences with the same approach as AAN and NAA orderings,
without appeal to other mechanisms. We find that, across 32 languages, the
preferred order of adjectives largely mirrors an efficient algorithm of
maximizing information gain.
- Abstract(参考訳): 言語は名詞の前、後、または周囲の複数の形容詞の配置が異なるが、通常、それらの形容詞の相対的な順序で強い言語内傾向を示す(例えば、英語では「big blue box」、フランス語では「grande bo\^{i}te bleue」、アラビア語では「alsund\={u}q al'azraq alkab\={\i}r」)。
我々は,情報ゲインの最大化に基づく形容詞順の新しい定量化を推し進める。
本モデルでは,フランス型ANA配列の左右非対称性を,AANおよびNAA順序と同じアプローチで解決する。
32の言語にまたがって、好まれる形容詞の順序は、情報獲得を最大化する効率的なアルゴリズムをほとんど反映している。
関連論文リスト
- Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - A Data Bootstrapping Recipe for Low Resource Multilingual Relation
Classification [38.83366564843953]
IndoREは21Kのエンティティと3つのインド語と英語でタグ付けされた金の文を持つデータセットである。
まず,多言語BERT (mBERT) ベースのシステムから始める。
我々は、高価な金のインスタンスと翻訳された'銀のインスタンスと整合した'銀のインスタンスとの精度のトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:40:46Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Word Embedding Transformation for Robust Unsupervised Bilingual Lexicon
Induction [21.782189001319935]
2つの言語の埋め込みの同型性を高めるための変換に基づく手法を提案する。
我々の手法は最先端の手法と比較して、競争力や優れた性能を達成することができる。
論文 参考訳(メタデータ) (2021-05-26T02:09:58Z) - Scalar Adjective Identification and Multilingual Ranking [4.915907527975786]
新しい言語におけるスカラー形容詞の研究を促進するために、新しい多言語データセットを導入します。
我々は、単言語および多言語文脈言語モデルを用いて、一連の実験を行い、このデータセットにパフォーマンスベースラインを設定する。
英語スカラー形容詞識別のための新しいバイナリ分類タスクを提案する。
論文 参考訳(メタデータ) (2021-05-03T21:32:41Z) - A multilabel approach to morphosyntactic probing [3.0013352260516744]
マルチリンガルBERTは多くの形態合成特徴を簡便かつ同時に抽出できることを示した。
ゼロショット転送設定で、6つの「ホールドアウト」言語のプローブを評価します。
論文 参考訳(メタデータ) (2021-04-17T06:24:04Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - On the Evolution of Word Order [7.2610922684683645]
最適な言語は固定語順を持つ言語であることを示す。
また,ケースマーカーや名詞動詞の区別などの文に情報を追加することで,単語の順序を固定化する必要がなくなることを示す。
論文 参考訳(メタデータ) (2021-01-23T20:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。