論文の概要: Diversity, Density, and Homogeneity: Quantitative Characteristic Metrics
for Text Collections
- arxiv url: http://arxiv.org/abs/2003.08529v1
- Date: Thu, 19 Mar 2020 00:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 04:15:41.683440
- Title: Diversity, Density, and Homogeneity: Quantitative Characteristic Metrics
for Text Collections
- Title(参考訳): 多様性、密度、均質性:テキストコレクションの定量的特徴指標
- Authors: Yi-An Lai, Xuan Zhu, Yi Zhang, Mona Diab
- Abstract要約: 本稿では,テキストコレクションの分散度,疎度,均一度を定量的に測定する多様性,密度,均一性の指標を提案する。
実世界のデータセットを用いた実験により,提案手法は有名なBERTのテキスト分類性能と高い相関性を示す。
- 参考スコア(独自算出の注目度): 23.008385862718036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Summarizing data samples by quantitative measures has a long history, with
descriptive statistics being a case in point. However, as natural language
processing methods flourish, there are still insufficient characteristic
metrics to describe a collection of texts in terms of the words, sentences, or
paragraphs they comprise. In this work, we propose metrics of diversity,
density, and homogeneity that quantitatively measure the dispersion, sparsity,
and uniformity of a text collection. We conduct a series of simulations to
verify that each metric holds desired properties and resonates with human
intuitions. Experiments on real-world datasets demonstrate that the proposed
characteristic metrics are highly correlated with text classification
performance of a renowned model, BERT, which could inspire future applications.
- Abstract(参考訳): 定量的測定によるデータサンプルの要約には長い歴史があり、記述的統計がポイントである。
しかし、自然言語処理の手法が隆盛するにつれて、それらを構成する単語、文、段落の観点でテキストの集合を記述するための特徴的指標は未だ不十分である。
本研究では,テキストコレクションの分散,疎度,均一度を定量的に測定する多様性,密度,均一性の指標を提案する。
各々の計量が望ましい性質を持ち、人間の直観と共鳴することを検証するために一連のシミュレーションを行う。
実世界のデータセット実験により,提案した特徴指標は,将来アプリケーションに刺激を与える可能性のある有名なモデルBERTのテキスト分類性能と高い相関性を示す。
関連論文リスト
- Standardizing the Measurement of Text Diversity: A Tool and a
Comparative Analysis of Scores [30.12630686473324]
圧縮アルゴリズムは,n$-gramのオーバーラップスコアの計算を遅くすることで,測定値に類似した情報を取得する。
スコアの適用性は、生成モデルの解析を超えて拡張される。
論文 参考訳(メタデータ) (2024-03-01T14:23:12Z) - Metric Space Magnitude for Evaluating the Diversity of Latent Representations [13.272500655475486]
我々は,潜伏表現の内在的多様性の等級に基づく尺度群を開発する。
我々の測度はデータの摂動下で確実に安定しており、効率的に計算でき、厳密なマルチスケールのキャラクタリゼーションと潜在表現の比較を可能にする。
i) 多様性の自動推定, (ii) モード崩壊の検出, (iii) テキスト, 画像, グラフデータの生成モデルの評価など, さまざまな領域やタスクにおけるそれらの実用性と優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T18:19:07Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Measuring the Measuring Tools: An Automatic Evaluation of Semantic
Metrics for Text Corpora [5.254054636427663]
テキストコーパス間の意味的類似性を比較する能力は、さまざまな自然言語処理アプリケーションにおいて重要である。
本稿では,コーパスレベルの意味的類似度指標の特性を評価するための,自動的かつ解釈可能な尺度を提案する。
論文 参考訳(メタデータ) (2022-11-29T14:47:07Z) - Distribution Aware Metrics for Conditional Natural Language Generation [3.6350564275444173]
既存のメトリクスは、視覚的記述や、基底真理が意味論的に多様であるような要約のような領域には適さないと論じる。
条件付き言語生成モデルのマルチ候補評価のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:58:13Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation [85.32991360774447]
自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。
NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
論文 参考訳(メタデータ) (2021-09-14T01:00:42Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Heavy-tailed Representations, Text Polarity Classification & Data
Augmentation [11.624944730002298]
所望の正則性を持つ重み付き埋め込みを学習するための新しい手法を開発した。
提案した埋め込みの尾部専用の分類器が得られ、性能がベースラインを上回っている。
合成および実テキストデータに関する数値実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2020-03-25T19:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。