論文の概要: Detecting Turkish Synonyms Used in Different Time Periods
- arxiv url: http://arxiv.org/abs/2411.15768v1
- Date: Sun, 24 Nov 2024 09:31:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:47.491660
- Title: Detecting Turkish Synonyms Used in Different Time Periods
- Title(参考訳): 時間差によるトルコ語の同義語検出
- Authors: Umur Togay Yazar, Mucahid Kutlu,
- Abstract要約: トルコ語は20世紀の言語改革による言語変化の顕著な例である。
本稿では,トルコ語に焦点をあてて,異なる期間に使用される同義語を検出する2つの方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Dynamic structure of languages poses significant challenges in applying natural language processing models on historical texts, causing decreased performance in various downstream tasks. Turkish is a prominent example of rapid linguistic transformation due to the language reform in the 20th century. In this paper, we propose two methods for detecting synonyms used in different time periods, focusing on Turkish. In our first method, we use Orthogonal Procrustes method to align the embedding spaces created using documents written in the corresponding time periods. In our second method, we extend the first one by incorporating Spearman's correlation between frequencies of words throughout the years. In our experiments, we show that our proposed methods outperform the baseline method. Furthermore, we observe that the efficacy of our methods remains consistent when the target time period shifts from the 1960s to the 1980s. However, their performance slightly decreases for subsequent time periods.
- Abstract(参考訳): 言語の動的構造は、過去のテキストに自然言語処理モデルを適用する際に大きな課題となり、様々な下流タスクのパフォーマンスが低下する。
トルコ語は20世紀の言語改革による言語変化の顕著な例である。
本稿では,トルコ語に焦点をあてて,異なる期間に使用される同義語を検出する2つの方法を提案する。
最初の手法では,Orthogonal Procrustes法を用いて,対応する期間に書かれた文書を用いて作成した埋め込み空間を整列する。
第2の手法では、スピアマンの単語の周波数間の相関を年々取り入れて第1の手法を拡張する。
本研究では,提案手法がベースライン法より優れていることを示す。
さらに,本手法の有効性は,対象期間が1960年代から1980年代へ移行した時点でも一定であることが明らかとなった。
しかし、その後の期間はわずかにパフォーマンスが低下する。
関連論文リスト
- Fine-grained Controllable Text Generation through In-context Learning with Feedback [57.396980277089135]
本稿では,依存度などの非自明な言語的特徴の特定の値に一致させるために,入力文を書き換える手法を提案する。
従来の研究とは対照的に、本手法は微調整ではなく文脈内学習を用いており、データが少ないユースケースに適用できる。
論文 参考訳(メタデータ) (2024-06-17T08:55:48Z) - Reliable Detection and Quantification of Selective Forces in Language
Change [3.55026004901472]
我々は,最近導入された手法をコーパスデータに適用し,歴史的言語変化の特定の事例における選択の強さを定量化する。
本手法は,従来適用されてきた類似手法よりも信頼性が高く,解釈可能であることを示す。
論文 参考訳(メタデータ) (2023-05-25T10:20:15Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - A Probabilistic Approach in Historical Linguistics Word Order Change in
Infinitival Clauses: from Latin to Old French [0.0]
この論文はラテン語と古フランス語の歴史における不定詞節の語順変化を調査している。
言語変化の各段階における単語順序の同時変化について検討し,その特徴,周期化,ダイアクロニック変動の制約を推定する。
従来の言語変化パターンにも適合する,単語順変化の3段階確率モデルを提案する。
論文 参考訳(メタデータ) (2020-11-16T20:30:31Z) - Automated Transcription of Non-Latin Script Periodicals: A Case Study in
the Ottoman Turkish Print Archive [0.0]
本研究では,トランスクリバスプラットフォームを用いて,アラビア文字のオスマン文字(OT)で書かれた定期文字の自動書き起こしに深層学習手法を用いた。
我々は、OTテキストコレクションの歴史的状況と、20世紀後半のコーパスデジタル化からどのように除外されたかについて論じる。
この除外には2つの基本的な理由がある:アラビア語のスクリプト言語におけるOCRの技術的課題と、トルコの歴史的文脈におけるその文字の急速な放棄である。
論文 参考訳(メタデータ) (2020-11-02T17:28:36Z) - Learning Coupled Policies for Simultaneous Machine Translation using
Imitation Learning [85.70547744787]
本稿では,プログラマ-解釈ポリシーを併用した同時翻訳モデルを効率よく学習する手法を提案する。
6つの言語対の実験により,翻訳品質の点で,本手法は高いベースラインを達成できた。
論文 参考訳(メタデータ) (2020-02-11T10:56:42Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。