論文の概要: The power of context: Random Forest classification of near synonyms. A case study in Modern Hindi
- arxiv url: http://arxiv.org/abs/2604.01425v1
- Date: Wed, 01 Apr 2026 21:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.073512
- Title: The power of context: Random Forest classification of near synonyms. A case study in Modern Hindi
- Title(参考訳): 文脈の力:近同義語のランダムフォレスト分類 : 現代ヒンディー語を事例として
- Authors: Jacek Bąkowski,
- Abstract要約: ヒンディー語では、ペルシア語との長期間の接触により、サンスクリット語と共存するペルソ・アラビア語の借用語が数多く生み出された。
ヒンディー語と同義語の単語の埋め込みを訓練したランダムフォレストは、サンスクリット語やペルソ・アラビア語による単語の分類に成功した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synonymy is a widespread yet puzzling linguistic phenomenon. Absolute synonyms theoretically should not exist, as they do not expand language's expressive potential. However, it was suggested that even if synonyms denote the same concept, they may reflect different perspectives or carry distinct cultural associations, claims that have rarely been tested quantitatively. In Hindi, prolonged contact with Persian produced many Perso-Arabic loanwords coexisting with their Sanskrit counterpart, forming numerous synonym pairs. This study investigates whether centuries after these borrowings appeared in the Subcontinent their origin can still be distinguished using distributional data alone and regardless of their semantic content. A Random Forest trained on word embeddings of Hindi synonyms successfully classified words by Sanskrit or Perso-Arabic origin, even when they were semantically unrelated, suggesting that usage patterns preserve traces of etymology. These findings provide quantitative evidence that context encodes etymological signals and that synonymy may reflect subtle but systematic distinctions linked to origin. They support the idea that synonymous words can offer different perspectives and that etymologically related words may form distinct conceptual subspaces, creating a new type of semantic frame shaped by historical origin. Overall, the results highlight the power of context in capturing nuanced distinctions beyond traditional semantic similarity.
- Abstract(参考訳): シンノミー(英: Synonymy)は、言語学的現象である。
絶対的な同義語は理論的には存在すべきではなく、言語の表現力を拡張するものではない。
しかし、たとえ同義語が同じ概念であるとしても、異なる視点を反映したり、異なる文化的関連性を持ち、定量的に検証されることはめったにないという主張が示唆された。
ヒンディー語では、ペルシア語との長期間の接触は、サンスクリット語と共存するペルソ・アラビア語の借用語を多数生成し、多くの同義語対を形成した。
本研究は,これらの借入が亜大陸に出現してから何世紀にもわたっても,その起源は,その意味的内容に関わらず,分布データだけで区別できるかどうかを考察する。
ヒンディー語と同義語の単語の埋め込みを訓練したランダムフォレストは、意味的に無関係であったとしても、サンスクリット語やペルソ・アラビア語による単語の分類に成功した。
これらの発見は、文脈が語源的シグナルを符号化し、同義語は起源に関連する微妙だが体系的な区別を反映する可能性があるという定量的証拠を提供する。
彼らは同義語は異なる視点を提供することができるという考えを支持し、語源的に関係のある単語は異なる概念的な部分空間を形成し、歴史的起源によって形成された新しいタイプの意味的フレームを形成する。
全体としては、従来の意味的類似性を超えたニュアンスドの区別を捉える際の文脈の力を強調している。
関連論文リスト
- A new kid on the block: Distributional semantics predicts the word-specific tone signatures of monosyllabic words in conversational Taiwan Mandarin [0.4078247440919472]
単音節単語のピッチの輪郭が自然会話型マンダリンでどのように実現されるかを検討する。
単語の効果は音素認識の強い予測因子であることがわかった。
音声学では、分布意味論はブロック上の新しい子供である。
論文 参考訳(メタデータ) (2025-11-21T15:56:58Z) - Rethinking Word Similarity: Semantic Similarity through Classification Confusion [31.12253159483973]
本稿では,特徴に基づく分類の混乱という観点から意味的類似性を再編成する,類似性の新たな尺度,Word Confusionを提案する。
提案手法は,複数のデータセットにまたがる人間の類似性判定におけるコサイン類似性に匹敵するものである。
フランスの「革命」という言葉の18世紀における変化に関する仮説を検証するために、我々のモデルが動的特徴を活用できることを実証する。
論文 参考訳(メタデータ) (2025-02-08T21:55:38Z) - Conjuring Semantic Similarity [59.18714889874088]
2つのテキスト表現間の意味的類似性は、潜伏者の「意味」の間の距離を測定する
テキスト表現間の意味的類似性は、他の表現を言い換えるのではなく、それらが引き起こすイメージに基づいている、という新しいアプローチを提案する。
提案手法は,人間の注釈付きスコアに適合するだけでなく,テキスト条件付き生成モデル評価のための新たな道を開く意味的類似性に関する新たな視点を提供する。
論文 参考訳(メタデータ) (2024-10-21T18:51:34Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Lost in Context? On the Sense-wise Variance of Contextualized Word
Embeddings [11.475144702935568]
各単語感覚の文脈的埋め込みが、典型的な事前学習モデルにおける文脈によってどの程度異なるかを定量化する。
単語表現は位置バイアスを受けており、異なる文脈における最初の単語はより類似する傾向にある。
論文 参考訳(メタデータ) (2022-08-20T12:27:25Z) - Patterns of Lexical Ambiguity in Contextualised Language Models [9.747449805791092]
本稿では,単語感覚の類似度と共述度を拡張した,人間による注釈付きデータセットを提案する。
どちらの人間の判断も、多文解釈の類似性は意味の同一性とホモニミーの連続性にあることを示している。
我々のデータセットは、語彙的曖昧性の複雑さの大部分を捉えており、文脈的埋め込みのための現実的なテストベッドを提供することができる。
論文 参考訳(メタデータ) (2021-09-27T13:11:44Z) - Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。
我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。
本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文 参考訳(メタデータ) (2021-01-22T12:04:08Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。