論文の概要: A scale of conceptual orality and literacy: Automatic text categorization in the tradition of "Nähe und Distanz"
- arxiv url: http://arxiv.org/abs/2502.03252v1
- Date: Wed, 05 Feb 2025 15:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:27:39.857203
- Title: A scale of conceptual orality and literacy: Automatic text categorization in the tradition of "Nähe und Distanz"
- Title(参考訳): 概念的オリティとリテラシーの尺度--「Nähe und Distanz」の伝統における自動テキスト分類
- Authors: Volker Emmrich,
- Abstract要約: 言語的特徴により、概念的オリティーと識字率の尺度でテキストを評価できることが規定されている。
本稿では,PCAをベースとしたスケールを確立し,自動解析と組み合わせる。
このスケールは、コーパスコンパイルでの使用や、より大きなコーパスでの分析ガイドとしての利用についても論じられている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Koch and Oesterreicher's model of "N\"ahe und Distanz" (N\"ahe = immediacy, conceptual orality; Distanz = distance, conceptual literacy) is constantly used in German linguistics. However, there is no statistical foundation for use in corpus linguistic analyzes, while it is increasingly moving into empirical corpus linguistics. Theoretically, it is stipulated, among other things, that written texts can be rated on a scale of conceptual orality and literacy by linguistic features. This article establishes such a scale based on PCA and combines it with automatic analysis. Two corpora of New High German serve as examples. When evaluating established features, a central finding is that features of conceptual orality and literacy must be distinguished in order to rank texts in a differentiated manner. The scale is also discussed with a view to its use in corpus compilation and as a guide for analyzes in larger corpora. With a theory-driven starting point and as a "tailored" dimension, the approach compared to Biber's Dimension 1 is particularly suitable for these supporting, controlling tasks.
- Abstract(参考訳): Koch and Oesterreicher's model of "N\"ahe und Distanz" (N\"ahe = immediacy, concept orality; Distanz = distance, concept literacy) is always used in German languages. but, it is not statistical foundation for use in corpus languages, while increasingly moving into empirical corpus languages. however is described that written texts are rated on a scale of concept orality and literacy by language features. this article establisheds a scales a such scale based on PCA based with it also also also also a example.
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - Tracing the Genealogies of Ideas with Large Language Model Embeddings [0.0]
大規模コーパスにまたがる知的影響を検出する新しい手法を提案する。
この手法を用いて、19世紀の約40万冊のノンフィクション書籍と学術出版物のコーパスから文章をベクトル化する。
論文 参考訳(メタデータ) (2024-01-13T18:42:27Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - A Neural Network-Based Linguistic Similarity Measure for Entrainment in
Conversations [12.052672647509732]
言語訓練は、人々が会話でお互いを模倣する傾向がある現象である。
現在の類似度尺度のほとんどは、back-of-wordsアプローチに基づいている。
本稿では,ニューラルネットワークモデルを用いて,運動の類似度を測定することを提案する。
論文 参考訳(メタデータ) (2021-09-04T19:48:17Z) - Metrical Tagging in the Wild: Building and Annotating Poetry Corpora
with Rhythmic Features [0.0]
英語とドイツ語に大規模な詩コーパスを提供し,コーパス駆動ニューラルモデルを訓練するためのコーパスを小型化した韻律的特徴をアノテートする。
音節埋め込みを用いた BiLSTM-CRF モデルは, CRF ベースラインと異なるBERT ベースアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-17T16:38:57Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - A frame semantics based approach to comparative study of digitized
corpus [0.0]
本論文は, デジタル化小説から作成された英語・アラビア語対応コーパスの形態的, 構文的, 意味的アノテーションプロセスに焦点を当てたものである。
本研究では,言語間での運動事象の概念化の違いを,フレーム構造とフレーム間関係で記述することができることを論じる。
論文 参考訳(メタデータ) (2020-05-29T22:56:25Z) - A computational model implementing subjectivity with the 'Room Theory'.
The case of detecting Emotion from Text [68.8204255655161]
本研究は,テキスト分析における主観性と一般的文脈依存性を考慮した新しい手法を提案する。
単語間の類似度を用いて、ベンチマーク中の要素の相対的関連性を抽出することができる。
この方法は、主観的評価がテキストの相対値や意味を理解するために関係しているすべてのケースに適用できる。
論文 参考訳(メタデータ) (2020-05-12T21:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。