論文の概要: Detecting Sexual Content at the Sentence Level in First Millennium Latin
Texts
- arxiv url: http://arxiv.org/abs/2309.14974v1
- Date: Mon, 25 Sep 2023 09:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 13:23:07.259259
- Title: Detecting Sexual Content at the Sentence Level in First Millennium Latin
Texts
- Title(参考訳): 第一ミレニアムラテン文字文の文レベルでの性的内容の検出
- Authors: Thibault Cl\'erice (ALMAnaCH, CJM)
- Abstract要約: 我々は,紀元前300年から900年までの約2500の文からなる,性意味論を含む新しいコーパスを紹介した。
我々は,様々な文分類手法と異なる入力埋め込み層を評価し,単純なトークンベースの検索を一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we propose to evaluate the use of deep learning methods for
semantic classification at the sentence level to accelerate the process of
corpus building in the field of humanities and linguistics, a traditional and
time-consuming task. We introduce a novel corpus comprising around 2500
sentences spanning from 300 BCE to 900 CE including sexual semantics (medical,
erotica, etc.). We evaluate various sentence classification approaches and
different input embedding layers, and show that all consistently outperform
simple token-based searches. We explore the integration of idiolectal and
sociolectal metadata embeddings (centuries, author, type of writing), but find
that it leads to overfitting. Our results demonstrate the effectiveness of this
approach, achieving high precision and true positive rates (TPR) of
respectively 70.60% and 86.33% using HAN. We evaluate the impact of the dataset
size on the model performances (420 instead of 2013), and show that, while our
models perform worse, they still offer a high enough precision and TPR, even
without MLM, respectively 69% and 51%. Given the result, we provide an analysis
of the attention mechanism as a supporting added value for humanists in order
to produce more data.
- Abstract(参考訳): 本研究では,人文・言語学分野におけるコーパス構築のプロセスの促進を図るために,文レベルでの意味分類に深層学習手法を適用することを提案する。
セクシュアリティ・セマンティクス(医学、エロティカなど)を含む、紀元前300年から900年までの約2500文からなる新しいコーパスを紹介する。
様々な文分類手法と異なる入力埋め込み層を評価し,単純なトークンベース検索を一貫して上回っていることを示す。
我々は、慣用的および社会的なメタデータ埋め込み(センチュリー、著者、ライティングの種類)の統合について検討するが、それが過剰に適合することがわかった。
提案手法の有効性を実証し,HANを用いてそれぞれ70.60%,86.33%の精度と真正率(TPR)を達成した。
モデル性能に対するデータセットサイズの影響 (2013年より420) を評価し, モデルの性能は悪いが, MLMなしでも高い精度とTPRを提供し, それぞれ69%, 51%を示した。
この結果から,人文主義者がより多くのデータを生成するための補助的な付加価値として,注意機構の分析を行う。
関連論文リスト
- Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Meta-Learning Adversarial Domain Adaptation Network for Few-Shot Text
Classification [31.167424308211995]
対戦型ドメイン適応ネットワークと統合された新しいメタ学習フレームワークを提案する。
提案手法は,全データセットにおける最先端モデルよりも明らかに優れていることを示す。
特に、20のニュースグループのデータセットにおける1ショットと5ショットの分類の精度は52.1%から59.6%に向上している。
論文 参考訳(メタデータ) (2021-07-26T15:09:40Z) - Detecting of a Patient's Condition From Clinical Narratives Using
Natural Language Representation [0.3149883354098941]
本稿では,臨床自然言語表現学習と教師付き分類フレームワークを提案する。
この新しいフレームワークは、文脈的臨床物語入力から分布構文と潜在意味論(表現学習)を共同で発見する。
提案手法では, 精度, 再現性, 精度をそれぞれ89 %, 88 %, 89 %とした総合分類性能が得られる。
論文 参考訳(メタデータ) (2021-04-08T17:16:04Z) - Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文 参考訳(メタデータ) (2020-01-16T08:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。