論文の概要: Revisiting the Optimality of Word Lengths
- arxiv url: http://arxiv.org/abs/2312.03897v1
- Date: Wed, 6 Dec 2023 20:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:53:21.284725
- Title: Revisiting the Optimality of Word Lengths
- Title(参考訳): 単語長の最適性の再検討
- Authors: Tiago Pimentel, Clara Meister, Ethan Gotlieb Wilcox, Kyle Mahowald,
Ryan Cotterell
- Abstract要約: 通信コストは、さまざまな方法で運用できる。
Zipf (1935) は、単語形式は発話のコミュニケーションコストを最小限に抑えるために最適化されていると仮定した。
- 参考スコア(独自算出の注目度): 92.70590105707639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zipf (1935) posited that wordforms are optimized to minimize utterances'
communicative costs. Under the assumption that cost is given by an utterance's
length, he supported this claim by showing that words' lengths are inversely
correlated with their frequencies. Communicative cost, however, can be
operationalized in different ways. Piantadosi et al. (2011) claim that cost
should be measured as the distance between an utterance's information rate and
channel capacity, which we dub the channel capacity hypothesis (CCH) here.
Following this logic, they then proposed that a word's length should be
proportional to the expected value of its surprisal (negative log-probability
in context). In this work, we show that Piantadosi et al.'s derivation does not
minimize CCH's cost, but rather a lower bound, which we term CCH-lower. We
propose a novel derivation, suggesting an improved way to minimize CCH's cost.
Under this method, we find that a language's word lengths should instead be
proportional to the surprisal's expectation plus its variance-to-mean ratio.
Experimentally, we compare these three communicative cost functions: Zipf's,
CCH-lower , and CCH. Across 13 languages and several experimental settings, we
find that length is better predicted by frequency than either of the other
hypotheses. In fact, when surprisal's expectation, or expectation plus
variance-to-mean ratio, is estimated using better language models, it leads to
worse word length predictions. We take these results as evidence that Zipf's
longstanding hypothesis holds.
- Abstract(参考訳): zipf (1935) は、単語形式は発話のコミュニケーションコストを最小化するために最適化されていると仮定した。
発話の長さによってコストが与えられるという仮定の下で、彼は単語の長さが周波数と逆相関していることを示すことによって、この主張を支持した。
しかし、通信コストは異なる方法で操作できる。
Piantadosi et al. (2011) は、コストは発話の情報量とチャネル容量の間の距離として測定されるべきであり、ここではチャネルキャパシティ仮説(CCH)を定めている。
この論理に従えば、単語の長さはその前提値(文脈における負の対数確率)の期待値に比例するべきである。
本稿では、PiantadosiらによるCCHの導出は、CCHのコストを最小化するのではなく、より低いバウンドで、CCH-lower と呼ぶ。
本稿では,CCHのコストを最小化するための改良手法を提案する。
この方法では、言語の単語長は、代用詞の期待値と、その分散対平均比に比例するべきである。
実験により,これらの通信コスト関数,Zipf,CCH-lower,CCHを比較した。
13の言語といくつかの実験的な設定で、長さは他の仮説よりも頻度で予測できることがわかった。
実際、surprisalの期待値、あるいは期待値と平均値の分散比がより良い言語モデルを用いて推定されると、単語長の予測は悪化する。
これらの結果は、Zipfの長年の仮説が持つ証拠とみなす。
関連論文リスト
- Relative-Translation Invariant Wasserstein Distance [82.6068808353647]
距離の新しい族、相対翻訳不変ワッサーシュタイン距離(RW_p$)を導入する。
我々は、$RW_p 距離もまた、分布変換に不変な商集合 $mathcalP_p(mathbbRn)/sim$ 上で定義される実距離測度であることを示す。
論文 参考訳(メタデータ) (2024-09-04T03:41:44Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Semantic Text Transmission via Prediction with Small Language Models:
Cost-Similarity Trade-off [7.666188363531336]
我々は,言語固有の相関や予測可能性を利用して,送信コストを制約し,目的地の単語の予測や完全化を可能にする。
ニューラルネットワークとマルコフ連鎖に基づく1次小言語モデルに対して$(barc, bars)$ペアを得る。
雑音のないチャネル上で通信を行う場合、しきい値ポリシーは、周期的なポリシーよりも与えられた$barc$に対して高い$bars$を達成する。
論文 参考訳(メタデータ) (2024-03-01T05:20:16Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Syntactic Surprisal From Neural Models Predicts, But Underestimates,
Human Processing Difficulty From Syntactic Ambiguities [19.659811811023374]
言語モデルから構文予測可能性を推定する手法を提案する。
構文的予測可能性と語彙的予測可能性とを独立に扱うことで,園路効果のより大きい推定結果が得られた。
本研究は, 庭道文に付随する処理コストの要因は, 予測可能性だけではないという仮説を支持する。
論文 参考訳(メタデータ) (2022-10-21T18:30:56Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Dependency distance minimization predicts compression [1.2944868613449219]
依存性距離最小化(DDm)は、単語順序の確立された原理である。
これは、原理と他の原理とを結び付けるためであり、一階予測のように原則と宣言を結び付けるためである。
最近導入されたスコアは、広く使われている依存性距離の和に関して、数学的、統計的に多くの利点がある。
論文 参考訳(メタデータ) (2021-09-18T10:53:39Z) - Linear-time calculation of the expected sum of edge lengths in random
projective linearizations of trees [1.2944868613449219]
構文的に関連付けられた単語間の距離の合計は、過去数十年間、ライムライトの中にあった。
言語に関する関連する定量的研究を行うために、様々なランダムベースラインが定義されている。
ここでは、文の単語のランダムな射影置換という、一般的なベースラインに焦点を当てる。
論文 参考訳(メタデータ) (2021-07-07T15:11:53Z) - Robust Linear Regression: Optimal Rates in Polynomial Time [11.646151402884215]
複数の線形モデルを学習するための頑健で計算効率の良い推定器を得る。
確率変数の独立性の緩和に役立つ解析条件を同定する。
我々の中心となる技術的貢献は、"sum-of-squares"フレームワークにおけるランダム変数の独立性をアルゴリズム的に活用することである。
論文 参考訳(メタデータ) (2020-06-29T17:22:16Z) - An Analysis of the Adaptation Speed of Causal Models [80.77896315374747]
最近、Bengioらは、すべての候補モデルの中で、$G$は、あるデータセットから別のデータセットに適応する最速のモデルであると推測した。
最適化からの収束率を用いた原因影響SCMの適応速度について検討する。
驚くべきことに、私たちは反因果モデルが有利である状況を見つけ、初期仮説を偽造する。
論文 参考訳(メタデータ) (2020-05-18T23:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。