論文の概要: Turkish Delights: a Dataset on Turkish Euphemisms
- arxiv url: http://arxiv.org/abs/2407.13040v1
- Date: Wed, 17 Jul 2024 22:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:13:43.396805
- Title: Turkish Delights: a Dataset on Turkish Euphemisms
- Title(参考訳): トルコの悲喜:トルコのエプヘミズムに関するデータセット
- Authors: Hasan Can Biyik, Patrick Lee, Anna Feldman,
- Abstract要約: この研究は、潜在的至上主義用語(PET)に関する現在の計算作業をトルコ語に拡張する。
本稿では,トルコのPETデータセットについて紹介する。
トルコ語におけるPETのエウヘミスティックな例と非エウヘミスティックな例を挙げる。
- 参考スコア(独自算出の注目度): 1.7614751781649955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Euphemisms are a form of figurative language relatively understudied in natural language processing. This research extends the current computational work on potentially euphemistic terms (PETs) to Turkish. We introduce the Turkish PET dataset, the first available of its kind in the field. By creating a list of euphemisms in Turkish, collecting example contexts, and annotating them, we provide both euphemistic and non-euphemistic examples of PETs in Turkish. We describe the dataset and methodologies, and also experiment with transformer-based models on Turkish euphemism detection by using our dataset for binary classification. We compare performances across models using F1, accuracy, and precision as evaluation metrics.
- Abstract(参考訳): ユーフェミズム(英: Euphemisms)は、自然言語処理において比較的研究されている図形言語の一種である。
この研究は、潜在的至上主義用語(PET)に関する現在の計算作業をトルコ語に拡張する。
本稿では,トルコのPETデータセットについて紹介する。
トルコ語でエウヘミズムのリストを作成し、例の文脈を収集し、それらに注釈を付けることにより、トルコ語でエウヘミズムと非エウヘミズムの両方のPETの例を提供する。
本稿では,このデータセットと手法について述べるとともに,2進分類のためのデータセットを用いてトルコのエウヘミズム検出のトランスフォーマーモデルを用いた実験を行った。
評価指標として、F1、精度、精度を用いてモデル間での性能を比較する。
関連論文リスト
- Investigating Gender Bias in Turkish Language Models [3.100560442806189]
トルコ語モデルにおけるジェンダーバイアスの重要性について検討する。
我々は既存のバイアス評価フレームワークを構築し、それらをトルコ語に拡張する。
具体的には、クルド人の民族的偏見を埋め込んだトルコ語モデルを評価する。
論文 参考訳(メタデータ) (2024-04-17T20:24:41Z) - Cross-Lingual Learning vs. Low-Resource Fine-Tuning: A Case Study with Fact-Checking in Turkish [0.9217021281095907]
実世界で3238件のクレームからなるFCTRデータセットを紹介した。
このデータセットは複数のドメインにまたがり、3つのトルコのファクトチェック組織から収集された証拠が組み込まれている。
論文 参考訳(メタデータ) (2024-03-01T09:57:46Z) - Fine-tuning Transformer-based Encoder for Turkish Language Understanding
Tasks [0.0]
トルコ語のためのTransformerベースのモデルとベースラインベンチマークを提供する。
我々は、トルコのBERTモデル、BERTurkを多くの下流タスクに微調整し、トルコのベンチマークデータセットで評価した。
論文 参考訳(メタデータ) (2024-01-30T19:27:04Z) - Semantic Change Detection for the Romanian Language [0.5202524136984541]
実世界のデータセット上に静的および文脈的単語埋め込みモデルを作成するための様々な戦略を分析する。
まず,英語データセット (SEMEVAL-CCOHA) とルーマニア語データセット (SEMEVAL-CCOHA) で単語埋め込みモデルの評価を行った。
実験結果から,コーパスによっては,モデルの選択と,意味的変化を検出するためのスコアを計算するための距離が最も重要な要因であることが示唆された。
論文 参考訳(メタデータ) (2023-08-23T13:37:02Z) - FEED PETs: Further Experimentation and Expansion on the Disambiguation
of Potentially Euphemistic Terms [3.1648534725322666]
我々は,ヨルバ語,スペイン語,マンダリン中国語の3つの異なる言語で,新しいエウヘミズムコーパスを提示する。
トランスフォーマーは、あいまいなPETを分類するのが一般的である。
我々は,多言語トランスフォーマーモデルmBERTとXLM-RoBERTaを用いて,各言語でエウヘミズムの曖昧化実験を行う。
論文 参考訳(メタデータ) (2023-05-31T22:23:20Z) - Characterizing and Measuring Linguistic Dataset Drift [65.28821163863665]
本稿では,語彙,構造,意味的ドリフトという3次元の言語データセットドリフトを提案する。
これらの次元は、内容語頻度の発散、統語的発散、および単語周波数で捉えない意味の変化に対応している。
ドリフトメトリクスは、ドメイン外モデルの精度を予測する上で、以前のメトリクスよりも効果的であることが分かりました。
論文 参考訳(メタデータ) (2023-05-26T17:50:51Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based
Masked Language-models [51.53936551681613]
我々は、事前訓練されたBERTモデルのバイアス項(またはバイアス項のサブセット)のみを微調整することは、モデル全体を微調整する(そして、時にはそれよりも優れている)ことを示す。
彼らは、ファインタニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングの訓練によって引き起こされる知識を明らかにすることであるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-18T16:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。