論文の概要: Estimating the Entropy of Linguistic Distributions
- arxiv url: http://arxiv.org/abs/2204.01469v2
- Date: Tue, 5 Apr 2022 03:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 12:51:06.612081
- Title: Estimating the Entropy of Linguistic Distributions
- Title(参考訳): 言語分布のエントロピーの推定
- Authors: Aryaman Arora, Clara Meister, Ryan Cotterell
- Abstract要約: 言語分布に対する異なるエントロピー推定器の実証的有効性について検討した。
報告された効果の大きさは、低エントロピー推定器への過度な信頼のために過大評価されていることを示す。
- 参考スコア(独自算出の注目度): 75.20045001387685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shannon entropy is often a quantity of interest to linguists studying the
communicative capacity of human language. However, entropy must typically be
estimated from observed data because researchers do not have access to the
underlying probability distribution that gives rise to these data. While
entropy estimation is a well-studied problem in other fields, there is not yet
a comprehensive exploration of the efficacy of entropy estimators for use with
linguistic data. In this work, we fill this void, studying the empirical
effectiveness of different entropy estimators for linguistic distributions. In
a replication of two recent information-theoretic linguistic studies, we find
evidence that the reported effect size is over-estimated due to over-reliance
on poor entropy estimators. Finally, we end our paper with concrete
recommendations for entropy estimation depending on distribution type and data
availability.
- Abstract(参考訳): シャノンのエントロピーはしばしば、人間の言語のコミュニケーション能力を研究する言語学者の関心の量である。
しかし、エントロピーは観測データから推定されなければならない。なぜなら研究者はこれらのデータを生み出す基礎となる確率分布にアクセスできないからだ。
エントロピー推定は、他の分野ではよく研究されている問題であるが、言語データに使用するエントロピー推定器の有効性に関する包括的な調査はまだない。
本研究では,言語分布に対する異なるエントロピー推定器の実証的有効性について検討する。
近年の2つの情報理論言語研究の再現において,エントロピー推定器の不足が原因で報告された効果の大きさが過大評価されていることが判明した。
最後に, 分布型とデータ可用性によるエントロピー推定について, 具体的な推奨事項を述べる。
関連論文リスト
- InfoMatch: Entropy Neural Estimation for Semi-Supervised Image Classification [2.878018421751116]
我々は、未ラベル標本のポテンシャルを利用するために、情報エントロピーニューラル推定を用いる。
対照的な学習にインスパイアされたエントロピーは、相互情報に対する下位境界を最大化することによって推定される。
広範囲な実験において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-17T02:29:44Z) - Estimating Unknown Population Sizes Using the Hypergeometric Distribution [1.03590082373586]
総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。
本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。
実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-22T01:53:56Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Revisiting Entropy Rate Constancy in Text [43.928576088761844]
均一な情報密度仮説は、人間がほぼ均等に情報を発話や談話に分配する傾向があることを示している。
我々は、ニューラル言語モデルによるGenzel & Charniak(2002)の主張を再評価し、エントロピー速度の不安定性を支持する明確な証拠を見出すことに失敗した。
論文 参考訳(メタデータ) (2023-05-20T03:48:31Z) - Statistical Properties of the Entropy from Ordinal Patterns [55.551675080361335]
大規模な時系列モデルに対するエントロピー・統計複雑性の連立分布を知っていれば、今日まで利用できない統計テストが可能になるだろう。
実正規化エントロピーが零でも1でもないモデルに対して、経験的シャノンのエントロピーの分布を特徴づける。
2つの信号が同じシャノンのエントロピーを持つ順序パターンを生成するという仮説を否定するのに十分な証拠があるかどうかを検証する。
論文 参考訳(メタデータ) (2022-09-15T23:55:58Z) - On the probability-quality paradox in language generation [76.69397802617064]
我々は情報理論レンズを用いて言語生成を分析する。
人間の言語は自然文字列上の分布のエントロピーに近い量の情報を含むべきであると仮定する。
論文 参考訳(メタデータ) (2022-03-31T17:43:53Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Entropic Causal Inference: Identifiability and Finite Sample Results [14.495984877053948]
エントロピー因果推論は、観測データから2つのカテゴリー変数間の因果方向を推定する枠組みである。
Kocaogluらによって提示される最小エントロピー結合に基づくアルゴリズムアプローチを検討する。
論文 参考訳(メタデータ) (2021-01-10T08:37:54Z) - Neural Joint Entropy Estimation [12.77733789371855]
離散確率変数のエントロピーの推定は情報理論と関連する分野における根本的な問題である。
本稿では,McAllester と Statos (2020) の業績を拡張した,この問題に対する実用的な解決策を提案する。
提案手法は,深層ニューラルネットワーク(DNN)におけるクロスエントロピー推定の一般化能力を用いて,エントロピー推定精度の向上を図る。
論文 参考訳(メタデータ) (2020-12-21T09:23:39Z) - Generalized Entropy Regularization or: There's Nothing Special about
Label Smoothing [83.78668073898001]
本稿では, ラベル平滑化を含むエントロピー正則化器群を紹介する。
モデル性能のばらつきはモデルのエントロピーによって大きく説明できる。
我々は,他のエントロピー正規化手法の使用を推奨する。
論文 参考訳(メタデータ) (2020-05-02T12:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。