Fugu-MT 論文翻訳(概要): Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

論文の概要: Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

arxiv url: http://arxiv.org/abs/2309.14974v1
Date: Mon, 25 Sep 2023 09:21:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-27 13:23:07.259259
Title: Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts
Title（参考訳）: 第一ミレニアムラテン文字文の文レベルでの性的内容の検出
Authors: Thibault Cl\'erice (ALMAnaCH, CJM)
Abstract要約: 我々は,紀元前300年から900年までの約2500の文からなる,性意味論を含む新しいコーパスを紹介した。我々は,様々な文分類手法と異なる入力埋め込み層を評価し,単純なトークンベースの検索を一貫して上回ることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we propose to evaluate the use of deep learning methods for semantic classification at the sentence level to accelerate the process of corpus building in the field of humanities and linguistics, a traditional and time-consuming task. We introduce a novel corpus comprising around 2500 sentences spanning from 300 BCE to 900 CE including sexual semantics (medical, erotica, etc.). We evaluate various sentence classification approaches and different input embedding layers, and show that all consistently outperform simple token-based searches. We explore the integration of idiolectal and sociolectal metadata embeddings (centuries, author, type of writing), but find that it leads to overfitting. Our results demonstrate the effectiveness of this approach, achieving high precision and true positive rates (TPR) of respectively 70.60% and 86.33% using HAN. We evaluate the impact of the dataset size on the model performances (420 instead of 2013), and show that, while our models perform worse, they still offer a high enough precision and TPR, even without MLM, respectively 69% and 51%. Given the result, we provide an analysis of the attention mechanism as a supporting added value for humanists in order to produce more data.
Abstract（参考訳）: 本研究では,人文・言語学分野におけるコーパス構築のプロセスの促進を図るために,文レベルでの意味分類に深層学習手法を適用することを提案する。セクシュアリティ・セマンティクス(医学、エロティカなど)を含む、紀元前300年から900年までの約2500文からなる新しいコーパスを紹介する。様々な文分類手法と異なる入力埋め込み層を評価し,単純なトークンベース検索を一貫して上回っていることを示す。我々は、慣用的および社会的なメタデータ埋め込み(センチュリー、著者、ライティングの種類)の統合について検討するが、それが過剰に適合することがわかった。提案手法の有効性を実証し,HANを用いてそれぞれ70.60%,86.33%の精度と真正率(TPR)を達成した。モデル性能に対するデータセットサイズの影響 (2013年より420) を評価し, モデルの性能は悪いが, MLMなしでも高い精度とTPRを提供し, それぞれ69%, 51%を示した。この結果から,人文主義者がより多くのデータを生成するための補助的な付加価値として,注意機構の分析を行う。

関連論文リスト

Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。コード、事前トレーニングされたウェイト、デモがリリースされる。
論文参考訳（メタデータ） (2025-10-07T08:14:45Z)
How Well Do LLMs Imitate Human Writing Style? [2.3754840025365183]
大規模言語モデル(LLM)は、流動的なテキストを生成することができるが、特定の人間の作者の独特のスタイルを再現する能力は、まだ不明である。著者の検証とスタイルの模倣分析のための,高速かつトレーニング不要なフレームワークを提案する。学術エッセイでは97.5%、クロスドメイン評価では94.5%の精度を達成している。
論文参考訳（メタデータ） (2025-09-29T15:34:40Z)
Splits! A Flexible Dataset and Evaluation Framework for Sociocultural Linguistic Investigation [17.722429998521168]
系統的で柔軟な研究のためにデザインされたRedditの970万のポストデータセットであるSplits!を紹介します。このデータセットには、6つの人口グループにわたる53,000人以上のユーザーからの投稿が含まれており、89の議論トピックで構成されている。我々は,このデータセットを,効率的な検索手法を利用して,社会文化的言語現象(SLP)の可能性を急速に検証するフレームワークで補完する。この2段階のプロセスは,手動検査を必要とする統計的に有意な発見数を1.5～1.8倍に減少させることを示した。
論文参考訳（メタデータ） (2025-04-06T23:17:07Z)
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。 HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文参考訳（メタデータ） (2025-01-06T14:31:25Z)
Enhancing Authorship Attribution through Embedding Fusion: A Novel Approach with Masked and Encoder-Decoder Language Models [0.0]
本稿では,AI生成テキストと人間認証テキストを区別するために,事前学習言語モデルからのテキスト埋め込みを用いた新しいフレームワークを提案する。提案手法では, Embedding Fusion を用いて複数の言語モデルからの意味情報を統合し,その補完的強みを利用して性能を向上させる。
論文参考訳（メタデータ） (2024-11-01T07:18:27Z)
Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation [50.60733773088296]
音声言語翻訳国際ワークショップ(IWSLT 2023)における共有タスクの結果を総合的に評価する。本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。分析の結果,1) 提案した評価戦略は頑健であり,他の種類の人的判断とよく相関している,2) 自動測定基準は通常,必ずしも直接評価スコアとよく関連しているわけではない,3) COMET は chrF よりもわずかに強い自動測定基準である,といった結果を得た。
論文参考訳（メタデータ） (2024-06-06T09:18:42Z)
Evaluating Large Language Models Using Contrast Sets: An Experimental Approach [0.0]
本研究では,スタンフォード自然言語推論データセットのコントラストセットを生成する革新的な手法を提案する。我々の戦略は、動詞、副詞、形容詞をその同義語と自動置換して、文の本来の意味を保存することである。本手法は,モデルの性能が真の言語理解に基づくのか,それとも単にパターン認識に基づくのかを評価することを目的とする。
論文参考訳（メタデータ） (2024-04-02T02:03:28Z)
ECRC: Emotion-Causality Recognition in Korean Conversation for GCN [0.0]
本稿では,新しいグラフ構造に基づく会話モデル(ECRC)の感情因果認識を提案する。本研究では,単語レベルの埋め込みと文レベルの埋め込みの両方を活用することで,過去の埋め込みの限界を克服する。このモデルは、双方向長短期メモリ(Bi-LSTM)とグラフニューラルネットワーク(GCN)モデルを韓国の会話分析のために一意に統合する。
論文参考訳（メタデータ） (2024-03-16T02:07:31Z)
SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。 SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文参考訳（メタデータ） (2023-10-27T06:48:48Z)
Sensitivity, Performance, Robustness: Deconstructing the Effect of Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文参考訳（メタデータ） (2023-09-13T15:42:06Z)
Topics in the Haystack: Extracting and Evaluating Topics beyond Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文参考訳（メタデータ） (2023-03-30T12:24:25Z)
Enabling Classifiers to Make Judgements Explicitly Aligned with Human Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-14T09:10:49Z)
PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文参考訳（メタデータ） (2022-09-30T11:08:39Z)
No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文参考訳（メタデータ） (2022-07-11T07:33:36Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)
Enhancing lexical-based approach with external knowledge for Vietnamese multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文参考訳（メタデータ） (2020-01-16T08:09:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。