論文の概要: Slaves to the Law of Large Numbers: An Asymptotic Equipartition Property for Perplexity in Generative Language Models
- arxiv url: http://arxiv.org/abs/2405.13798v1
- Date: Wed, 22 May 2024 16:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 23:15:30.220994
- Title: Slaves to the Law of Large Numbers: An Asymptotic Equipartition Property for Perplexity in Generative Language Models
- Title(参考訳): 大数の法則へのスラヴ:生成言語モデルにおけるパープレキシティの漸近的平等性
- Authors: Raghu Mudumbai, Tyler Bell,
- Abstract要約: 言語モデルが生成する大きなテキストの難易度は,トークン分布の平均エントロピーに収束しなければならないことを示す。
この作業は、AI検出の理解と改善のための実践的な応用を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new asymptotic equipartition property for the perplexity of a large piece of text generated by a language model and present theoretical arguments for this property. Perplexity, defined as a inverse likelihood function, is widely used as a performance metric for training language models. Our main result states that the logarithmic perplexity of any large text produced by a language model must asymptotically converge to the average entropy of its token distributions. This means that language models are constrained to only produce outputs from a ``typical set", which we show, is a vanishingly small subset of all possible grammatically correct outputs. We present preliminary experimental results from an open-source language model to support our theoretical claims. This work has possible practical applications for understanding and improving ``AI detection" tools and theoretical implications for the uniqueness, predictability and creative potential of generative models.
- Abstract(参考訳): 本稿では,言語モデルによって生成された大きなテキストのパープレキシティに対する新しい漸近的等分法と,この性質に関する理論的議論を提案する。
逆確率関数として定義されるパープレキシティは、言語モデルを訓練するための性能指標として広く使われている。
我々の主な結果は、言語モデルによって生成された大きなテキストの対数的パープレキシティは、そのトークン分布の平均エントロピーに漸近的に収束しなければならないということである。
このことは、言語モデルが「典型集合」からのみ出力を生成することを制約されていることを意味する。これは、全ての可能な文法的に正しい出力の、消滅的に小さなサブセットであることを意味する。我々は、我々の理論的な主張をサポートするために、オープンソースの言語モデルから予備的な実験結果を示す。この研究は、「AI検出」ツールの理解と改善、および生成モデルのユニークさ、予測可能性、創造的ポテンシャルに対する理論的含意について、実用的な応用をもたらす可能性がある。
関連論文リスト
- Large Language Model Evaluation via Matrix Entropy [11.455818555226942]
大規模言語モデル(LLM)におけるデータ圧縮能力の定量化のための情報理論と幾何学原理に根ざした新しい計量である行列エントロピーを導入する。
言語モデルの場合,表現の行列エントロピーは,モデルがスケールアップした場合のスケーリング法則型の縮小に従っており,従来の損失スケーリング法を補完する役割を果たしている。
マルチモーダル設定では,行列エントロピーに基づくアライメント品質の評価手法も提案する。
論文 参考訳(メタデータ) (2024-01-30T16:19:55Z) - The Distributional Hypothesis Does Not Fully Explain the Benefits of
Masked Language Model Pretraining [27.144616560712493]
マスク付き言語モデルを用いて事前学習したモデルのより優れたサンプル効率とより優れた一般化能力は、事前学習したデータの分布特性に符号化された意味的類似性に起因するかを検討する。
本研究は,モデル事前学習の限定的な理解と今後の研究方向性を示すものである。
論文 参考訳(メタデータ) (2023-10-25T00:31:29Z) - TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - Token-wise Decomposition of Autoregressive Language Model Hidden States
for Analyzing Model Predictions [9.909170013118775]
本研究は,各初期入力トークンに基づいて,自己回帰言語モデルから最終隠れ状態の線形分解を行う。
次単語確率の変化を重要度尺度として、まず、どの文脈語が言語モデル予測に最も貢献するかを検討する。
論文 参考訳(メタデータ) (2023-05-17T23:55:32Z) - On Robustness of Prompt-based Semantic Parsing with Large Pre-trained
Language Model: An Empirical Study on Codex [48.588772371355816]
本稿では,大規模なプロンプトベース言語モデルであるコーデックスの対角的ロバスト性に関する最初の実証的研究について述べる。
この結果から, 最先端の言語モデル(SOTA)は, 慎重に構築された敵の例に対して脆弱であることが示された。
論文 参考訳(メタデータ) (2023-01-30T13:21:00Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Exploring Lexical Irregularities in Hypothesis-Only Models of Natural
Language Inference [5.283529004179579]
自然言語推論(NLI)またはテキスト関連認識(RTE)は、文のペア間の関係を予測するタスクです。
包含を理解するモデルは前提と仮説の両方をエンコードするべきである。
Poliakらによる実験。
仮説でのみ観察されたパターンに対するこれらのモデルの強い好みを明らかにした。
論文 参考訳(メタデータ) (2021-01-19T01:08:06Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。