Fugu-MT 論文翻訳(概要): Estimating the Entropy of Linguistic Distributions

論文の概要: Estimating the Entropy of Linguistic Distributions

arxiv url: http://arxiv.org/abs/2204.01469v2
Date: Tue, 5 Apr 2022 03:46:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-06 12:51:06.612081
Title: Estimating the Entropy of Linguistic Distributions
Title（参考訳）: 言語分布のエントロピーの推定
Authors: Aryaman Arora, Clara Meister, Ryan Cotterell
Abstract要約: 言語分布に対する異なるエントロピー推定器の実証的有効性について検討した。報告された効果の大きさは、低エントロピー推定器への過度な信頼のために過大評価されていることを示す。
参考スコア（独自算出の注目度）: 75.20045001387685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Shannon entropy is often a quantity of interest to linguists studying the communicative capacity of human language. However, entropy must typically be estimated from observed data because researchers do not have access to the underlying probability distribution that gives rise to these data. While entropy estimation is a well-studied problem in other fields, there is not yet a comprehensive exploration of the efficacy of entropy estimators for use with linguistic data. In this work, we fill this void, studying the empirical effectiveness of different entropy estimators for linguistic distributions. In a replication of two recent information-theoretic linguistic studies, we find evidence that the reported effect size is over-estimated due to over-reliance on poor entropy estimators. Finally, we end our paper with concrete recommendations for entropy estimation depending on distribution type and data availability.
Abstract（参考訳）: シャノンのエントロピーはしばしば、人間の言語のコミュニケーション能力を研究する言語学者の関心の量である。しかし、エントロピーは観測データから推定されなければならない。なぜなら研究者はこれらのデータを生み出す基礎となる確率分布にアクセスできないからだ。エントロピー推定は、他の分野ではよく研究されている問題であるが、言語データに使用するエントロピー推定器の有効性に関する包括的な調査はまだない。本研究では,言語分布に対する異なるエントロピー推定器の実証的有効性について検討する。近年の2つの情報理論言語研究の再現において,エントロピー推定器の不足が原因で報告された効果の大きさが過大評価されていることが判明した。最後に, 分布型とデータ可用性によるエントロピー推定について, 具体的な推奨事項を述べる。

関連論文リスト

Entropy-Based Block Pruning for Efficient Large Language Models [81.18339597023187]
性能を維持しつつ効率を向上するエントロピー型プルーニング戦略を提案する。経験的分析により、隠れ表現のエントロピーは初期ブロックでは減少するが、その後のほとんどのブロックでは徐々に増加することが明らかとなった。
論文参考訳（メタデータ） (2025-04-04T03:42:34Z)
To BEE or not to BEE: Estimating more than Entropy with Biased Entropy Estimators [0.3669506968635671]
ソフトウェアエンジニアにとって有用なシャノン測度に対して,広く採用されている18のエントロピー推定器を適用した。本研究は,サンプルサイズとドメインサイズという2つの大きな影響要因から推定値がどのように影響を受けるかを検討する。私たちの最も重要な結果は、Chao-Shen と Chao-Wang-Jost の見積もり者が、より早く地上の真実に収束していることを明らかにすることです。
論文参考訳（メタデータ） (2025-01-20T10:48:08Z)
Measuring Sample Importance in Data Pruning for Language Models based on Information Entropy [4.079147243688765]
本稿では,情報エントロピーに基づくデータプルーニング手法を提案する。トレーニングコーパスのサンプルを,その情報性の観点からランク付けすることを提案する。実験の結果,提案した情報に基づくプルーニングは,様々な言語モデリングや下流タスクを改善することができることがわかった。
論文参考訳（メタデータ） (2024-06-20T09:09:34Z)
InfoMatch: Entropy Neural Estimation for Semi-Supervised Image Classification [2.878018421751116]
我々は、未ラベル標本のポテンシャルを利用するために、情報エントロピーニューラル推定を用いる。対照的な学習にインスパイアされたエントロピーは、相互情報に対する下位境界を最大化することによって推定される。広範囲な実験において,本手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-04-17T02:29:44Z)
Estimating Unknown Population Sizes Using the Hypergeometric Distribution [1.03590082373586]
総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
論文参考訳（メタデータ） (2024-02-22T01:53:56Z)
Approximating Counterfactual Bounds while Fusing Observational, Biased and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。利用可能なデータの可能性は局所的な最大値を持たないことを示す。次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文参考訳（メタデータ） (2023-07-31T11:28:24Z)
Revisiting Entropy Rate Constancy in Text [43.928576088761844]
均一な情報密度仮説は、人間がほぼ均等に情報を発話や談話に分配する傾向があることを示している。我々は、ニューラル言語モデルによるGenzel & Charniak(2002)の主張を再評価し、エントロピー速度の不安定性を支持する明確な証拠を見出すことに失敗した。
論文参考訳（メタデータ） (2023-05-20T03:48:31Z)
Statistical Properties of the Entropy from Ordinal Patterns [55.551675080361335]
大規模な時系列モデルに対するエントロピー・統計複雑性の連立分布を知っていれば、今日まで利用できない統計テストが可能になるだろう。実正規化エントロピーが零でも1でもないモデルに対して、経験的シャノンのエントロピーの分布を特徴づける。 2つの信号が同じシャノンのエントロピーを持つ順序パターンを生成するという仮説を否定するのに十分な証拠があるかどうかを検証する。
論文参考訳（メタデータ） (2022-09-15T23:55:58Z)
On the probability-quality paradox in language generation [76.69397802617064]
我々は情報理論レンズを用いて言語生成を分析する。人間の言語は自然文字列上の分布のエントロピーに近い量の情報を含むべきであると仮定する。
論文参考訳（メタデータ） (2022-03-31T17:43:53Z)
Automatically Identifying Semantic Bias in Crowdsourced Natural Language Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文参考訳（メタデータ） (2021-12-16T22:49:01Z)
Entropic Causal Inference: Identifiability and Finite Sample Results [14.495984877053948]
エントロピー因果推論は、観測データから2つのカテゴリー変数間の因果方向を推定する枠組みである。 Kocaogluらによって提示される最小エントロピー結合に基づくアルゴリズムアプローチを検討する。
論文参考訳（メタデータ） (2021-01-10T08:37:54Z)
Neural Joint Entropy Estimation [12.77733789371855]
離散確率変数のエントロピーの推定は情報理論と関連する分野における根本的な問題である。本稿では,McAllester と Statos (2020) の業績を拡張した,この問題に対する実用的な解決策を提案する。提案手法は,深層ニューラルネットワーク(DNN)におけるクロスエントロピー推定の一般化能力を用いて,エントロピー推定精度の向上を図る。
論文参考訳（メタデータ） (2020-12-21T09:23:39Z)
Generalized Entropy Regularization or: There's Nothing Special about Label Smoothing [83.78668073898001]
本稿では, ラベル平滑化を含むエントロピー正則化器群を紹介する。モデル性能のばらつきはモデルのエントロピーによって大きく説明できる。我々は,他のエントロピー正規化手法の使用を推奨する。
論文参考訳（メタデータ） (2020-05-02T12:46:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。