論文の概要: A Computational Approach to Measuring the Semantic Divergence of
Cognates
- arxiv url: http://arxiv.org/abs/2012.01288v1
- Date: Wed, 2 Dec 2020 15:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 07:41:14.906309
- Title: A Computational Approach to Measuring the Semantic Divergence of
Cognates
- Title(参考訳): コニャートのセマンティック多様性測定のための計算的アプローチ
- Authors: Ana-Sabina Uban, Alina-Maria Ciobanu, Liviu P. Dinu
- Abstract要約: 複数の言語におけるコグネート集合の意味的類似性を測定することにより、言語間の意味的相違について検討する。
言語に依存しない手法は、コグナットの発散の定量的解析を容易にする。
本研究では,「ソフト・フェイル・フレンド」と「ハード・フェイル・フレンド」の概念を導入するとともに,偽友達ペアの「虚偽」の程度を測る尺度を導入する。
- 参考スコア(独自算出の注目度): 2.66418345185993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meaning is the foundation stone of intercultural communication. Languages are
continuously changing, and words shift their meanings for various reasons.
Semantic divergence in related languages is a key concern of historical
linguistics. In this paper we investigate semantic divergence across languages
by measuring the semantic similarity of cognate sets in multiple languages. The
method that we propose is based on cross-lingual word embeddings. In this paper
we implement and evaluate our method on English and five Romance languages, but
it can be extended easily to any language pair, requiring only large
monolingual corpora for the involved languages and a small bilingual dictionary
for the pair. This language-agnostic method facilitates a quantitative analysis
of cognates divergence -- by computing degrees of semantic similarity between
cognate pairs -- and provides insights for identifying false friends. As a
second contribution, we formulate a straightforward method for detecting false
friends, and introduce the notion of "soft false friend" and "hard false
friend", as well as a measure of the degree of "falseness" of a false friends
pair. Additionally, we propose an algorithm that can output suggestions for
correcting false friends, which could result in a very helpful tool for
language learning or translation.
- Abstract(参考訳): 意味は文化間コミュニケーションの基礎である。
言語は変化し続けており、言葉は様々な理由で意味を変える。
関連言語における意味的発散は、歴史的言語学の重要な関心事である。
本稿では,複数言語におけるコグネート集合の意味的類似性を測定することにより,言語間の意味的分岐について検討する。
本稿では,言語間単語埋め込みに基づく手法を提案する。
本稿では、英語と5つのロマンス言語について実装・評価を行うが、任意の言語対に容易に拡張でき、関連する言語には大きな単言語コーパスと、その対には小さな二言語辞書のみを必要とする。
この言語に依存しない手法は、コグネートペア間の意味的類似性の度合いを計算することによって、コグネート分岐の定量的解析を促進し、偽の友人を特定するための洞察を提供する。
第2の貢献として、偽の友人を検出する簡単な方法を定式化し、偽の友人ペアの「偽り」の程度を測定するとともに、「ソフト・偽の友人」と「ハード・偽の友人」の概念を導入する。
さらに, 誤りを訂正するための提案を出力するアルゴリズムを提案し, 言語学習や翻訳に非常に有用なツールとなる可能性がある。
関連論文リスト
- Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense [30.62699081329474]
本稿では,言語間感覚曖昧化のための新しいベンチマーク,StingrayBenchを紹介する。
インドネシア語とマレー語、インドネシア語とタガログ語、中国語と日本語、英語とドイツ語の4つの言語ペアで偽の友人を集めます。
各種モデルの解析において,高リソース言語に偏りが生じる傾向が見られた。
論文 参考訳(メタデータ) (2024-10-28T22:09:43Z) - A Computational Model for the Assessment of Mutual Intelligibility Among
Closely Related Languages [1.5773159234875098]
密接に関連する言語は、ある言語の話者が積極的に学習することなく他の言語の話者を理解することができる言語類似性を示す。
相互の知性は程度によって異なり、典型的には精神言語実験でテストされる。
本稿では,人間による言語学習の認知過程を近似するために,線形識別学習システムを用いたコンピュータ支援手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T11:32:13Z) - Are Mutually Intelligible Languages Easier to Translate? [30.41671642147019]
本稿では,ニューラルマシーン翻訳モデルの学習に必要なデータ量は,言語間の相互理解性に反することを示す。
ロマンス語群の実験では、モデルの学習曲線の下での領域と、人間の話者を研究することによって得られる相互の知性スコアとの間には、確かに強い相関関係があることが明らかにされた。
論文 参考訳(メタデータ) (2022-01-31T09:22:23Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Linguistic Classification using Instance-Based Learning [0.0]
コントラリア的アプローチを採用し、かなり制約のあるツリーベースモデルに疑問を呈する。
例えば、サンスクリットがインド・ヨーロッパ語にまたがる言語と独立して親和性は、ネットワークモデルを用いてよりよく説明できる。
インドにおける言語間の相互関係についても同じことが言えます。
論文 参考訳(メタデータ) (2020-12-02T04:12:10Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。