論文の概要: Computational Modelling of Plurality and Definiteness in Chinese Noun
Phrases
- arxiv url: http://arxiv.org/abs/2403.04376v1
- Date: Thu, 7 Mar 2024 10:06:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:23:16.872476
- Title: Computational Modelling of Plurality and Definiteness in Chinese Noun
Phrases
- Title(参考訳): 中国語名詞句の複数性および定性に関する計算モデル
- Authors: Yuqi Liu, Guanyi Chen, Kees van Deemter
- Abstract要約: 中国語名詞句(NPs)における複数・定性マーカーの欠落に着目した。
我々は中国語のNPのコーパスを構築し、そのそれぞれに対応する文脈と、その特異性/複数性と定性/不定性を示すラベルを添える。
従来の機械学習モデルと最先端の事前学習言語モデルの両方を用いて計算モデルのバンクを訓練し、各NPの多重性と定性を予測する。
- 参考スコア(独自算出の注目度): 13.317456093426808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theoretical linguists have suggested that some languages (e.g., Chinese and
Japanese) are "cooler" than other languages based on the observation that the
intended meaning of phrases in these languages depends more on their contexts.
As a result, many expressions in these languages are shortened, and their
meaning is inferred from the context. In this paper, we focus on the omission
of the plurality and definiteness markers in Chinese noun phrases (NPs) to
investigate the predictability of their intended meaning given the contexts. To
this end, we built a corpus of Chinese NPs, each of which is accompanied by its
corresponding context, and by labels indicating its singularity/plurality and
definiteness/indefiniteness. We carried out corpus assessments and analyses.
The results suggest that Chinese speakers indeed drop plurality and
definiteness markers very frequently. Building on the corpus, we train a bank
of computational models using both classic machine learning models and
state-of-the-art pre-trained language models to predict the plurality and
definiteness of each NP. We report on the performance of these models and
analyse their behaviours.
- Abstract(参考訳): 理論的言語学者は、一部の言語(中国語や日本語など)が他の言語よりも「クール」であると示唆し、これらの言語におけるフレーズの意味は文脈に依存しているという観察に基づく。
その結果、これらの言語の多くの表現は短縮され、その意味は文脈から推測される。
本稿では,中国語の名詞句(NP)における複数の定性マーカーの欠落に着目し,その文脈を考慮した意味の予測可能性について検討する。
この目的のために、我々は中国語のNPのコーパスを構築し、それぞれが対応する文脈を伴い、その特異性/複数性と定性/不定性を示すラベルで表現した。
コーパスの評価と分析を行った。
その結果、中国語話者は確かに複数の定性指標を非常に頻繁に落としていることが示唆された。
コーパスに基づいて、従来の機械学習モデルと最先端の事前学習言語モデルの両方を用いて計算モデルのバンクを訓練し、各NPの多重性と定性を予測する。
我々は,これらのモデルの性能を報告し,その行動を分析する。
関連論文リスト
- To Drop or Not to Drop? Predicting Argument Ellipsis Judgments: A Case Study in Japanese [26.659122101710068]
本研究では,日本語のバランスコーパスにおいて,2000以上のデータポイントで特定の議論を省略すべきか否かについて検討する。
データは、ネイティブ話者がこうした判断に対して共通の基準を共有していることを示している。
システムの予測と特定の言語的側面における人間の判断とのギャップが明らかになる。
論文 参考訳(メタデータ) (2024-04-17T12:26:52Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - Understanding the Use of Quantifiers in Mandarin [7.249126423531564]
我々はマンダリンで短いテキストのコーパスを導入し、定量化された表現が顕著に現れる。
東アジア語話者は西欧語話者よりも短時間に話すが情報に乏しいという仮説を考察する。
論文 参考訳(メタデータ) (2022-09-24T10:43:07Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Controlled Evaluation of Grammatical Knowledge in Mandarin Chinese
Language Models [22.57309958548928]
構造的監督が言語モデルの文法的依存の学習能力を向上させるかどうかを検討する。
LSTM、リカレントニューラルネットワーク文法、トランスフォーマー言語モデル、および異なるサイズのデータセットに対する生成解析モデルをトレーニングする。
構造的監督がコンテンツ間のシナティクス状態の表現に役立ち、低データ設定における性能向上に役立つという示唆的な証拠が得られます。
論文 参考訳(メタデータ) (2021-09-22T22:11:30Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。