論文の概要: Stylomech: Unveiling Authorship via Computational Stylometry in English and Romanized Sinhala
- arxiv url: http://arxiv.org/abs/2501.09561v1
- Date: Thu, 16 Jan 2025 14:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:40.244620
- Title: Stylomech: Unveiling Authorship via Computational Stylometry in English and Romanized Sinhala
- Title(参考訳): Stylomech: 英語とローマ字のSinhalaによる計算スティロメトリーによるオーサリング
- Authors: Nabeelah Faumi, Adeepa Gunathilake, Benura Wickramanayake, Deelaka Dias, TGDK Sumanathilaka,
- Abstract要約: 英語とローマ字の両方における著者の帰属は、ここ数十年で主要な要件となった。
本研究は計算言語学の分野に大きく貢献する。
著者帰属の範囲を多種多様な言語文脈に広げることで、デジタルコミュニケーションにおける信頼と説明責任の育成に寄与する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: With the advent of Web 2.0, the development in social technology coupled with global communication systematically brought positive and negative impacts to society. Copyright claims and Author identification are deemed crucial as there has been a considerable amount of increase in content violation owing to the lack of proper ethics in society. The Author's attribution in both English and Romanized Sinhala became a major requirement in the last few decades. As an area largely unexplored, particularly within the context of Romanized Sinhala, the research contributes significantly to the field of computational linguistics. The proposed author attribution system offers a unique approach, allowing for the comparison of only two sets of text: suspect author and anonymous text, a departure from traditional methodologies which often rely on larger corpora. This work focuses on using the numerical representation of various pairs of the same and different authors allowing for, the model to train on these representations as opposed to text, this allows for it to apply to a multitude of authors and contexts, given that the suspected author text, and the anonymous text are of reasonable quality. By expanding the scope of authorship attribution to encompass diverse linguistic contexts, the work contributes to fostering trust and accountability in digital communication, especially in Sri Lanka. This research presents a pioneering approach to author attribution in both English and Romanized Sinhala, addressing a critical need for content verification and intellectual property rights enforcement in the digital age.
- Abstract(参考訳): Web 2.0の出現に伴い、社会技術の発展とグローバルコミュニケーションは体系的に社会に肯定的かつ否定的な影響をもたらした。
著作権の主張と著者の識別は、社会に適切な倫理が欠如しているため、コンテンツ違反が相当に増加したため、重要とみなされている。
著者の英語とローマ字のシンハラへの貢献は、ここ数十年で主要な要件となった。
特にローマ化シンハラの文脈において、ほとんど探索されていない領域として、この研究は計算言語学の分野に大きく貢献している。
提案する著者帰属システムでは,疑わしい著者と匿名のテキストという,より大きなコーパスに依存する従来の方法論から逸脱した2つのテキストを比較可能な,ユニークなアプローチが提案されている。
この研究は、同じ著者と異なる著者の様々なペアの数値表現を使用することに重点を置いており、このモデルがテキストではなくこれらの表現を訓練し、疑わしい著者のテキストと匿名のテキストが合理的な品質であることを考えると、複数の著者や文脈に適用することができる。
著述者の帰属範囲を多様な言語的文脈に広げることで、特にスリランカにおけるデジタルコミュニケーションにおける信頼と説明責任の育成に寄与する。
本研究は,デジタル時代のコンテンツ検証と知的財産権行使の重要ニーズに対処するため,英語とローマ語の両方における著者帰属への先駆的なアプローチを示す。
関連論文リスト
- Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges [16.35265384114857]
LLM(Large Language Models)の急速な進歩は、人間と機械のオーサシップの境界線を曖昧にしている。
この文献レビューは、この急速に発展する分野における芸術の状況を理解することに興味を持つ研究者や実践者のためのロードマップを提供する。
論文 参考訳(メタデータ) (2024-08-16T17:58:49Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - Detection of Machine-Generated Text: Literature Survey [0.0]
本研究の目的は,機械生成テキスト分野における成果と成果をコンパイルし,合成することである。
また、機械が生成するテキストの傾向を概観し、より大きな社会的意味を探求する。
論文 参考訳(メタデータ) (2024-01-02T01:44:15Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - Can You Fool AI by Doing a 180? $\unicode{x2013}$ A Case Study on
Authorship Analysis of Texts by Arata Osada [2.6954666679827137]
本稿では,倫理学と著者分析の分野をカバーする2つの疑問に答える試みである。
まず,著者識別システムが,作品の作者への正しい属性付けが可能かどうかを,長年にわたって大きな心理的移行を経た上で確認することに興味を抱いた。
第2に、著者の倫理的価値観の進化の観点から、著者の帰属体系が単一著者の発見に困難に直面する場合、それが何を意味するのかを確認した。
論文 参考訳(メタデータ) (2022-07-19T05:43:49Z) - Computational analyses of the topics, sentiments, literariness,
creativity and beauty of texts in a large Corpus of English Literature [0.0]
Gutenberg Literary English Corpus (GLEC)は、デジタル人文科学、計算言語学、神経認知詩学の研究のための豊富なテキストデータソースを提供する。
GLECの6つのテキストカテゴリのトピックと感情分析の結果を報告する。<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>3</i>,<i>3</i>,<i>3</i
論文 参考訳(メタデータ) (2022-01-12T08:16:52Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z) - MedLatinEpi and MedLatinLit: Two Datasets for the Computational
Authorship Analysis of Medieval Latin Texts [72.16295267480838]
我々は、中世ラテン文字の2つのデータセットであるMedLatinEpiとMedLatinLitを、計算オーサシップ分析の研究に使用し、利用可能にしている。
MedLatinEpi と MedLatinLit はそれぞれ 294 と 30 のキュレートされたテキストで構成されており、MedLatinEpi のテキストはエピストリー的な性質を持ち、MedLatinLit のテキストは文学的なコメントと様々な主題に関する論文で構成されている。
論文 参考訳(メタデータ) (2020-06-22T14:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。