論文の概要: Historical Ink: Semantic Shift Detection for 19th Century Spanish
- arxiv url: http://arxiv.org/abs/2407.12852v1
- Date: Mon, 8 Jul 2024 16:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:28:07.048491
- Title: Historical Ink: Semantic Shift Detection for 19th Century Spanish
- Title(参考訳): 歴史的インク:19世紀のスペイン語のセマンティックシフト検出
- Authors: Tony Montes, Laura Manrique-Gómez, Rubén Manrique,
- Abstract要約: 本稿では,ラテンアメリカ・スペイン語を中心に,19世紀のスペイン語文における単語の意味の進化について考察する。
言語進化を理解する上で重要なセマンティックシフト検出(SSD)タスクに対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the evolution of word meanings in 19th-century Spanish texts, with an emphasis on Latin American Spanish, using computational linguistics techniques. It addresses the Semantic Shift Detection (SSD) task, which is crucial for understanding linguistic evolution, particularly in historical contexts. The study focuses on analyzing a set of Spanish target words. To achieve this, a 19th-century Spanish corpus is constructed, and a customizable pipeline for SSD tasks is developed. This pipeline helps find the senses of a word and measure their semantic change between two corpora using fine-tuned BERT-like models with old Spanish texts for both Latin American and general Spanish cases. The results provide valuable insights into the cultural and societal shifts reflected in language changes over time
- Abstract(参考訳): 本稿では,19世紀のスペイン語文における単語の意味の進化を,計算言語学の手法を用いて,ラテンアメリカ・スペイン語に焦点をあてて考察する。
これは、特に歴史的文脈において、言語進化を理解するために不可欠であるセマンティックシフト検出(SSD)タスクに対処する。
この研究は、スペイン語の標的単語の集合を分析することに焦点を当てている。
これを実現するために、19世紀のスペインのコーパスが構築され、SSDタスクのカスタマイズ可能なパイプラインが開発された。
このパイプラインは、単語の感覚を見つけ出し、2つのコーパス間の意味的変化を測定するのに役立ちます。
その結果は、言語変化に反映される文化的・社会的変化に関する貴重な洞察を与えてくれる。
関連論文リスト
- Word Sense Disambiguation in Native Spanish: A Comprehensive Lexical Evaluation Resource [2.7775559369441964]
文脈における単語の語彙的意味は、Word Sense Disambiguation (WSD)アルゴリズムによって自動的に決定できる。
本稿では,スペインのWSDの新たな資源について紹介する。
センセーショナルインベントリと、ディクシオリオ・デ・ラ・レングア・エスパノラ(Diccionario de la Lengua Espanola)に由来する語彙データセットを含んでいる。
論文 参考訳(メタデータ) (2024-09-30T17:22:33Z) - Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical Analysis [2.2530496464901106]
スペイン語の単言語モデルと多言語BERTモデルを用いて、文脈におけるスペイン語のあいまいな名詞の意味表現を評価する。
様々な BERT ベースの LM の文脈的意味表現は、人間の判断に多少の違いがあるが、ヒトのベンチマークには及ばない。
論文 参考訳(メタデータ) (2024-06-20T18:58:11Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - LSCDiscovery: A shared task on semantic change discovery and detection
in Spanish [12.85253662018234]
スペイン語で意味変化の発見と検出に関する最初の共有タスクを提示する。
我々は、DURelフレームワークを使用して、意味変化のために手動でアノテートされたスペイン語単語の最初のデータセットを作成する。
競合するチームが開発したシステムについて述べ、特に有用であったテクニックを強調し、これらのアプローチの限界について議論する。
論文 参考訳(メタデータ) (2022-05-13T14:52:18Z) - A large scale lexical and semantic analysis of Spanish language
variations in Twitter [2.3511629321667096]
この写本は、世界中の26のスペイン語を話す国間での語彙的・意味的な関係について広く分析している。
我々は、Twitterのジオタグ付き公開ストリームの4年間を分析し、さまざまな国のスペイン語語彙を広範囲に調査した。
論文 参考訳(メタデータ) (2021-10-12T16:21:03Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - UoB at SemEval-2020 Task 1: Automatic Identification of Novel Word
Senses [0.6980076213134383]
本稿では,新しい単語認識に適したベイズ単語認識に基づく語彙意味変化検出手法を提案する。
同じアプローチが15年間のTwitterデータから得られたコーパスにも適用され、結果がスラングのインスタンスである可能性のある単語の識別に使用される。
論文 参考訳(メタデータ) (2020-10-18T19:27:06Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。