論文の概要: Predicting cross-linguistic adjective order with information gain
- arxiv url: http://arxiv.org/abs/2012.15263v1
- Date: Wed, 30 Dec 2020 18:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 11:05:13.879150
- Title: Predicting cross-linguistic adjective order with information gain
- Title(参考訳): 情報ゲインを用いた言語横断形容詞順序予測
- Authors: William Dyer, Richard Futrell, Zoey Liu, and Gregory Scontras
- Abstract要約: 我々は,情報ゲインの最大化に基づく形容詞順の新しい定量化を推し進める。
32の言語にまたがって、好まれる形容詞の順序は、情報獲得を最大化する効率的なアルゴリズムをほとんど反映している。
- 参考スコア(独自算出の注目度): 8.380439657099906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Languages vary in their placement of multiple adjectives before, after, or
surrounding the noun, but they typically exhibit strong intra-language
tendencies on the relative order of those adjectives (e.g., the preference for
`big blue box' in English, `grande bo\^{i}te bleue' in French, and
`alsund\={u}q al'azraq alkab\={\i}r' in Arabic). We advance a new quantitative
account of adjective order across typologically-distinct languages based on
maximizing information gain. Our model addresses the left-right asymmetry of
French-type ANA sequences with the same approach as AAN and NAA orderings,
without appeal to other mechanisms. We find that, across 32 languages, the
preferred order of adjectives largely mirrors an efficient algorithm of
maximizing information gain.
- Abstract(参考訳): 言語は名詞の前、後、または周囲の複数の形容詞の配置が異なるが、通常、それらの形容詞の相対的な順序で強い言語内傾向を示す(例えば、英語では「big blue box」、フランス語では「grande bo\^{i}te bleue」、アラビア語では「alsund\={u}q al'azraq alkab\={\i}r」)。
我々は,情報ゲインの最大化に基づく形容詞順の新しい定量化を推し進める。
本モデルでは,フランス型ANA配列の左右非対称性を,AANおよびNAA順序と同じアプローチで解決する。
32の言語にまたがって、好まれる形容詞の順序は、情報獲得を最大化する効率的なアルゴリズムをほとんど反映している。
関連論文リスト
- What an Elegant Bridge: Multilingual LLMs are Biased Similarly in Different Languages [51.0349882045866]
本稿では,Large Language Models (LLMs) の文法的ジェンダーのレンズによるバイアスについて検討する。
様々な言語における形容詞を持つ名詞を記述するためのモデルを提案し,特に文法性のある言語に焦点を当てた。
単純な分類器は、偶然以上の名詞の性別を予測できるだけでなく、言語間の移動可能性も示せる。
論文 参考訳(メタデータ) (2024-07-12T22:10:16Z) - Black Big Boxes: Do Language Models Hide a Theory of Adjective Order? [5.395055685742631]
英語や他の言語では、複雑な名詞句の複数の形容詞は、多くの言語理論の標的となった複雑な順序付けパターンを示している。
本稿では,人体における形容詞順選好(AOP)を説明するために設計された既存の仮説を概観し,言語モデルにおけるAOPを学習するための設定を開発する。
理論言語学で特定された因子によって生成される予測よりも,全てのモデルの予測が人間のAOPにずっと近いことが判明した。
論文 参考訳(メタデータ) (2024-07-02T10:29:09Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - Scalar Adjective Identification and Multilingual Ranking [4.915907527975786]
新しい言語におけるスカラー形容詞の研究を促進するために、新しい多言語データセットを導入します。
我々は、単言語および多言語文脈言語モデルを用いて、一連の実験を行い、このデータセットにパフォーマンスベースラインを設定する。
英語スカラー形容詞識別のための新しいバイナリ分類タスクを提案する。
論文 参考訳(メタデータ) (2021-05-03T21:32:41Z) - On the Evolution of Word Order [7.2610922684683645]
最適な言語は固定語順を持つ言語であることを示す。
また,ケースマーカーや名詞動詞の区別などの文に情報を追加することで,単語の順序を固定化する必要がなくなることを示す。
論文 参考訳(メタデータ) (2021-01-23T20:30:17Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - A Generalized Constraint Approach to Bilingual Dictionary Induction for
Low-Resource Language Families [1.0312968200748118]
密接に関連する言語に対する制約に基づくバイリンガル語彙帰納法を提案する。
我々はコグネート同義語を多対多の翻訳対を得るために同定する。
論文 参考訳(メタデータ) (2020-10-05T23:41:04Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。