論文の概要: Two halves of a meaningful text are statistically different
- arxiv url: http://arxiv.org/abs/2004.06474v1
- Date: Thu, 9 Apr 2020 20:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 03:23:14.593358
- Title: Two halves of a meaningful text are statistically different
- Title(参考訳): 意味のあるテキストの2つの半分は統計的に異なる
- Authors: Weibing Deng, R. Xie, S. Deng, and Armen E. Allahverdyan
- Abstract要約: 前半は後半よりも少ない語と稀な語がある。
テキストの線形構造を破壊する単語のランダムな置換後に、違いは消える。
これらの結果は、テキストの意味的構造(物語の流れによって定義される)と、その統計的特徴とを結びつけていると推測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Which statistical features distinguish a meaningful text (possibly written in
an unknown system) from a meaningless set of symbols? Here we answer this
question by comparing features of the first half of a text to its second half.
This comparison can uncover hidden effects, because the halves have the same
values of many parameters (style, genre {\it etc}). We found that the first
half has more different words and more rare words than the second half. Also,
words in the first half are distributed less homogeneously over the text in the
sense of of the difference between the frequency and the inverse spatial
period. These differences hold for the significant majority of several hundred
relatively short texts we studied. The statistical significance is confirmed
via the Wilcoxon test. Differences disappear after random permutation of words
that destroys the linear structure of the text. The differences reveal a
temporal asymmetry in meaningful texts, which is confirmed by showing that
texts are much better compressible in their natural way (i.e. along the
narrative) than in the word-inverted form. We conjecture that these results
connect the semantic organization of a text (defined by the flow of its
narrative) to its statistical features.
- Abstract(参考訳): 意味のあるテキスト(おそらく未知のシステムで書かれた)と無意味な記号の集合を区別する統計的特徴は?
ここでは、テキストの前半の機能と後半の機能を比較することで、この問題に答える。
この比較は、多くのパラメータ(スタイル、ジャンルなど)の値が同じであるため、隠れた効果を明らかにすることができる。
前半部は後半部より異なっており, 稀な語が多いことが判明した。
また、前半の単語は、周波数と逆空間周期の違いという意味で、テキスト上では均質に分散しない。
これらの違いは、我々が調査した数百の比較的短いテキストの大部分を占めている。
統計学的意義はウィルコクソン試験によって確認される。
テキストの線形構造を破壊する単語のランダムな置換後に、違いは消える。
この違いは意味のあるテキストの時間的非対称性を明らかにし、テキストが単語反転形式よりも自然な方法で(すなわち物語に沿って)圧縮可能であることを示すことによって確認される。
これらの結果は、テキストの意味的構成(物語の流れによって定義される)と統計的特徴を結びつけるものであると推測する。
関連論文リスト
- Conjuring Semantic Similarity [59.18714889874088]
2つのテキスト表現間の意味的類似性は、潜伏者の「意味」の間の距離を測定する
テキスト表現間の意味的類似性は、他の表現を言い換えるのではなく、それらが引き起こすイメージに基づいている、という新しいアプローチを提案する。
提案手法は,人間の注釈付きスコアに適合するだけでなく,テキスト条件付き生成モデル評価のための新たな道を開く意味的類似性に関する新たな視点を提供する。
論文 参考訳(メタデータ) (2024-10-21T18:51:34Z) - Unsupervised extraction of local and global keywords from a single text [0.0]
テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。
それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。
論文 参考訳(メタデータ) (2023-07-26T07:36:25Z) - Revealing the Blind Spot of Sentence Encoder Evaluation by HEROS [68.34155010428941]
文エンコーダ(SE)が類似する文ペアの種類は明らかでない。
HEROSは、ある規則に基づいて原文を新しい文に変換し、テキスト最小対を形成することによって構築される
HEROS上の60以上の教師なしSEの性能を体系的に比較することにより,ほとんどの教師なしエンコーダが否定に敏感であることを明らかにする。
論文 参考訳(メタデータ) (2023-06-08T10:24:02Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Frequency-based Distortions in Contextualized Word Embeddings [29.88883761339757]
本研究は,文脈化単語埋め込みの幾何学的特徴を2つの新しいツールを用いて探究する。
高頻度と低頻度の単語は、その表現幾何学に関して大きく異なる。
BERT-Baseは、北米やヨーロッパ諸国よりも南アメリカとアフリカ諸国の差別化が難しい。
論文 参考訳(メタデータ) (2021-04-17T06:35:48Z) - Statistically significant detection of semantic shifts using contextual
word embeddings [7.439525715543974]
文脈的単語埋め込みと順列に基づく統計的テストを組み合わせて意味的変化を推定する手法を提案する。
本手法の性能をシミュレーションで実証し,偽陽性を抑圧することにより,一貫して高精度に達成する。
また,SemEval-2020 Task 1 と Liverpool FC subreddit corpus の実際のデータも分析した。
論文 参考訳(メタデータ) (2021-04-08T13:58:54Z) - Tweet Sentiment Quantification: An Experimental Re-Evaluation [88.60021378715636]
センチメント定量化(Sentiment Quantification)は、教師付き学習によって、感情関連クラスの相対周波数(prevalence')を推定するタスクである。
統合され、より堅牢な実験プロトコルに従って、これらの定量化手法を再評価する。
結果はガオ・ガオ・セバスティアーニ(Gao Gao Sebastiani)によって得られたものとは大きく異なり、異なる感情量化法の相対的な強さと弱さについて、よりしっかりとした理解を提供する。
論文 参考訳(メタデータ) (2020-11-04T21:41:34Z) - Generalized Word Shift Graphs: A Method for Visualizing and Explaining
Pairwise Comparisons Between Texts [0.15833270109954134]
計算テキスト分析における一般的な課題は、2つのコーパスが単語頻度、感情、情報内容などの測定によってどのように異なるかを定量化することである。
一般化された単語シフトグラフを導入し、個々の単語が2つのテキスト間の変動にどのように貢献するかを意味的かつ解釈可能な要約を生成する。
このフレームワークは、相対周波数、辞書スコア、Kulback-LeiblerやJensen-Shannonの発散といったエントロピーに基づく測度など、テキストの比較によく使われる多くのアプローチを自然に含んでいることを示す。
論文 参考訳(メタデータ) (2020-08-05T17:27:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。