論文の概要: Estimating the Entropy of Linguistic Distributions
- arxiv url: http://arxiv.org/abs/2204.01469v2
- Date: Tue, 5 Apr 2022 03:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 12:51:06.612081
- Title: Estimating the Entropy of Linguistic Distributions
- Title(参考訳): 言語分布のエントロピーの推定
- Authors: Aryaman Arora, Clara Meister, Ryan Cotterell
- Abstract要約: 言語分布に対する異なるエントロピー推定器の実証的有効性について検討した。
報告された効果の大きさは、低エントロピー推定器への過度な信頼のために過大評価されていることを示す。
- 参考スコア(独自算出の注目度): 75.20045001387685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shannon entropy is often a quantity of interest to linguists studying the
communicative capacity of human language. However, entropy must typically be
estimated from observed data because researchers do not have access to the
underlying probability distribution that gives rise to these data. While
entropy estimation is a well-studied problem in other fields, there is not yet
a comprehensive exploration of the efficacy of entropy estimators for use with
linguistic data. In this work, we fill this void, studying the empirical
effectiveness of different entropy estimators for linguistic distributions. In
a replication of two recent information-theoretic linguistic studies, we find
evidence that the reported effect size is over-estimated due to over-reliance
on poor entropy estimators. Finally, we end our paper with concrete
recommendations for entropy estimation depending on distribution type and data
availability.
- Abstract(参考訳): シャノンのエントロピーはしばしば、人間の言語のコミュニケーション能力を研究する言語学者の関心の量である。
しかし、エントロピーは観測データから推定されなければならない。なぜなら研究者はこれらのデータを生み出す基礎となる確率分布にアクセスできないからだ。
エントロピー推定は、他の分野ではよく研究されている問題であるが、言語データに使用するエントロピー推定器の有効性に関する包括的な調査はまだない。
本研究では,言語分布に対する異なるエントロピー推定器の実証的有効性について検討する。
近年の2つの情報理論言語研究の再現において,エントロピー推定器の不足が原因で報告された効果の大きさが過大評価されていることが判明した。
最後に, 分布型とデータ可用性によるエントロピー推定について, 具体的な推奨事項を述べる。
関連論文リスト
- To BEE or not to BEE: Estimating more than Entropy with Biased Entropy Estimators [0.3669506968635671]
ソフトウェアエンジニアにとって有用なシャノン測度に対して,広く採用されている18のエントロピー推定器を適用した。
本研究は,サンプルサイズとドメインサイズという2つの大きな影響要因から推定値がどのように影響を受けるかを検討する。
私たちの最も重要な結果は、Chao-Shen と Chao-Wang-Jost の見積もり者が、より早く地上の真実に収束していることを明らかにすることです。
論文 参考訳(メタデータ) (2025-01-20T10:48:08Z) - Measuring Sample Importance in Data Pruning for Language Models based on Information Entropy [4.079147243688765]
本稿では,情報エントロピーに基づくデータプルーニング手法を提案する。
トレーニングコーパスのサンプルを,その情報性の観点からランク付けすることを提案する。
実験の結果,提案した情報に基づくプルーニングは,様々な言語モデリングや下流タスクを改善することができることがわかった。
論文 参考訳(メタデータ) (2024-06-20T09:09:34Z) - Estimating Unknown Population Sizes Using the Hypergeometric Distribution [1.03590082373586]
総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。
本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。
実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-22T01:53:56Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Revisiting Entropy Rate Constancy in Text [43.928576088761844]
均一な情報密度仮説は、人間がほぼ均等に情報を発話や談話に分配する傾向があることを示している。
我々は、ニューラル言語モデルによるGenzel & Charniak(2002)の主張を再評価し、エントロピー速度の不安定性を支持する明確な証拠を見出すことに失敗した。
論文 参考訳(メタデータ) (2023-05-20T03:48:31Z) - Statistical Properties of the Entropy from Ordinal Patterns [55.551675080361335]
大規模な時系列モデルに対するエントロピー・統計複雑性の連立分布を知っていれば、今日まで利用できない統計テストが可能になるだろう。
実正規化エントロピーが零でも1でもないモデルに対して、経験的シャノンのエントロピーの分布を特徴づける。
2つの信号が同じシャノンのエントロピーを持つ順序パターンを生成するという仮説を否定するのに十分な証拠があるかどうかを検証する。
論文 参考訳(メタデータ) (2022-09-15T23:55:58Z) - On the probability-quality paradox in language generation [76.69397802617064]
我々は情報理論レンズを用いて言語生成を分析する。
人間の言語は自然文字列上の分布のエントロピーに近い量の情報を含むべきであると仮定する。
論文 参考訳(メタデータ) (2022-03-31T17:43:53Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Neural Joint Entropy Estimation [12.77733789371855]
離散確率変数のエントロピーの推定は情報理論と関連する分野における根本的な問題である。
本稿では,McAllester と Statos (2020) の業績を拡張した,この問題に対する実用的な解決策を提案する。
提案手法は,深層ニューラルネットワーク(DNN)におけるクロスエントロピー推定の一般化能力を用いて,エントロピー推定精度の向上を図る。
論文 参考訳(メタデータ) (2020-12-21T09:23:39Z) - Generalized Entropy Regularization or: There's Nothing Special about
Label Smoothing [83.78668073898001]
本稿では, ラベル平滑化を含むエントロピー正則化器群を紹介する。
モデル性能のばらつきはモデルのエントロピーによって大きく説明できる。
我々は,他のエントロピー正規化手法の使用を推奨する。
論文 参考訳(メタデータ) (2020-05-02T12:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。