論文の概要: Data interference: emojis, homoglyphs, and issues of data fidelity in corpora and their results
- arxiv url: http://arxiv.org/abs/2507.01764v1
- Date: Wed, 02 Jul 2025 14:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.333022
- Title: Data interference: emojis, homoglyphs, and issues of data fidelity in corpora and their results
- Title(参考訳): データ干渉:絵文字、ホモグリフ、コーパスにおけるデータ忠実度の問題とその結果
- Authors: Matteo Di Cristofaro,
- Abstract要約: 本稿では,トークン化の相違が言語データの表現と分析結果の妥当性に与える影響について検討する。
本研究は,デジタルテキストがコーパスで正確に表現されていることを保証する方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenisation - "the process of splitting text into atomic parts" (Brezina & Timperley, 2017: 1) - is a crucial step for corpus linguistics, as it provides the basis for any applicable quantitative method (e.g. collocations) while ensuring the reliability of qualitative approaches. This paper examines how discrepancies in tokenisation affect the representation of language data and the validity of analytical findings: investigating the challenges posed by emojis and homoglyphs, the study highlights the necessity of preprocessing these elements to maintain corpus fidelity to the source data. The research presents methods for ensuring that digital texts are accurately represented in corpora, thereby supporting reliable linguistic analysis and guaranteeing the repeatability of linguistic interpretations. The findings emphasise the necessity of a detailed understanding of both linguistic and technical aspects involved in digital textual data to enhance the accuracy of corpus analysis, and have significant implications for both quantitative and qualitative approaches in corpus-based research.
- Abstract(参考訳): トークン化 - "テキストを原子部品に分割するプロセス" (Brezina & Timperley, 2017: 1) - コーパス言語学にとって重要なステップであり、質的アプローチの信頼性を確保しつつ、有効な定量的手法(例えばコロケーション)の基礎を提供する。
本稿では, トークン化の相違が言語データの表現と分析結果の妥当性に与える影響を考察し, 絵文字やホモグリフがもたらす課題を考察し, ソースデータに対するコーパスの忠実性を維持するために, それらの要素を前処理する必要性を強調した。
本研究は、ディジタルテキストがコーパスで正確に表現されることを保証する方法を示し、信頼性の高い言語解析をサポートし、言語解釈の再現性を保証する。
この知見は、コーパス分析の精度を高めるために、デジタルテキストデータにかかわる言語的側面と技術的側面の両方を詳細に理解する必要があることを強調し、コーパスベース研究における量的アプローチと質的アプローチの両方に重要な意味を持つ。
関連論文リスト
- Combining Objective and Subjective Perspectives for Political News Understanding [5.741243797283764]
本稿では、両視点を統合し、主観的側面のきめ細かい処理を提供するテキスト分析フレームワークを提案する。
本稿では、ニュースメディア、政治的指向、トピック、個々のエンティティ、人口構成に関する洞察とともに、その機能について説明する。
論文 参考訳(メタデータ) (2024-08-20T20:13:19Z) - Qualitative Data Analysis in Software Engineering: Techniques and Teaching Insights [10.222207222039048]
ソフトウェアリポジトリは、ソースコードコメント、コミットメッセージ、イシュー記述、ドキュメントなど、質的なアーティファクトの豊富なソースである。
この章では、さまざまな定性的データ分析技術を用いて、これらのアーティファクトの解釈に焦点を移す。
データ解釈における一貫性と精度を確保するため、コーディングガイドの戦略的設計とともに様々なコーディング手法について議論する。
論文 参考訳(メタデータ) (2024-06-12T13:56:55Z) - Capturing Pertinent Symbolic Features for Enhanced Content-Based
Misinformation Detection [0.0]
誤解を招く内容の検出は、言語的・ドメイン的多様性の極端さから、大きなハードルとなる。
本稿では,この現象を特徴付ける言語特性と,最も一般的な誤情報データセットの表現方法について分析する。
ニューラルネットワークモデルと組み合わせた関連する記号的知識の適切な利用は、誤解を招くコンテンツを検出するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-01-29T16:42:34Z) - Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Natural language technology and query expansion: issues,
state-of-the-art and perspectives [0.0]
クエリのあいまいさや誤解釈を引き起こす言語特性と、追加の要因は、ユーザの情報ニーズを正確に表現する能力に影響を与える。
汎用言語に基づく問合せ拡張フレームワークの解剖学を概説し,モジュールに基づく分解を提案する。
それぞれのモジュールについて、文献における最先端のソリューションをレビューし、使用するテクニックの光の下で分類する。
論文 参考訳(メタデータ) (2020-04-23T11:39:07Z) - A Framework for Evaluation of Machine Reading Comprehension Gold
Standards [7.6250852763032375]
本稿では,現在の言語的特徴,必要な推論,背景知識,事実的正当性を調査するための統一的な枠組みを提案する。
語彙的曖昧さに寄与する特徴の欠如、期待される回答の様々な事実的正しさ、および語彙的手がかりの存在は、いずれも、評価データの読解の複雑さと品質を低下させる可能性がある。
論文 参考訳(メタデータ) (2020-03-10T11:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。