論文の概要: Local Normalization Distortion and the Thermodynamic Formalism of Decoding Strategies for Large Language Models
- arxiv url: http://arxiv.org/abs/2503.21929v1
- Date: Thu, 27 Mar 2025 19:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:32:01.180574
- Title: Local Normalization Distortion and the Thermodynamic Formalism of Decoding Strategies for Large Language Models
- Title(参考訳): 大規模言語モデルにおける局所正規化歪みと復号法の熱力学形式
- Authors: Tom Kempton, Stuart Burrell,
- Abstract要約: 我々は、エルゴード理論の言語における平衡状態として一般的な復号アルゴリズムを表現し、言語モデルの復号戦略の理論を開発する。
本研究では, トポ-ク, 原子核, 温度サンプリングの局所正規化ステップの効果を解析し, 確率を1にまとめる。
一般的な説明とは対照的に、核サンプリングに対するトップkサンプリングの低性能の主な原因は局所正規化歪みである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Advances in hardware and language model architecture have spurred a revolution in natural language generation. However, autoregressive models compute probability distributions over next-token choices, and sampling from these distributions, known as decoding, has received significantly less attention than other design choices. Existing decoding strategies are largely based on heuristics, resulting in methods that are hard to apply or improve in a principled manner. We develop the theory of decoding strategies for language models by expressing popular decoding algorithms as equilibrium states in the language of ergodic theory and stating the functions they optimize. Using this, we analyze the effect of the local normalization step of top-k, nucleus, and temperature sampling, used to make probabilities sum to one. We argue that local normalization distortion is a fundamental defect of decoding strategies and quantify the size of this distortion and its effect on mathematical proxies for the quality and diversity of generated text. Contrary to the prevailing explanation, we argue that the major cause of the under-performance of top-k sampling relative to nucleus sampling is local normalization distortion. This yields conclusions for the future design of decoding algorithms and the detection of machine-generated text.
- Abstract(参考訳): ハードウェアと言語モデルアーキテクチャの進歩は、自然言語生成に革命をもたらした。
しかし, 自己回帰モデルでは, 次点選択に対する確率分布を計算し, 復号化と呼ばれるこれらの分布からのサンプリングは, 他の設計選択よりもはるかに少ない注意を払っている。
既存のデコード戦略は、主にヒューリスティックスに基づいており、結果として原則的に適用や改善が難しい方法が生まれる。
我々は、エルゴード理論の言語における平衡状態として人気のある復号アルゴリズムを表現し、最適化された関数を記述することで、言語モデルの復号戦略の理論を開発する。
これを用いて、トップk、核、温度サンプリングの局所正規化ステップの効果を解析し、確率を1にまとめる。
局所正規化歪みは復号戦略の根本的な欠陥であり、この歪みの大きさと、生成したテキストの品質と多様性に対する数学的プロキシへの影響を定量化する。
一般的な説明とは対照的に、核サンプリングに対するトップkサンプリングの低性能の主な原因は局所正規化歪みである。
これにより、復号アルゴリズムの将来の設計と機械生成テキストの検出の結論が得られる。
関連論文リスト
- A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Local and Global Decoding in Text Generation [36.38298679687864]
テキスト生成は、言語モデル分布から文字列をサンプリングする復号アルゴリズムに依存する。
本稿では,これらの復号化手法のグローバル正規化版の導入による歪みの影響について検討する。
この結果から,歪みは局所復号アルゴリズムの重要な特徴であることが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:38Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Reverse-Engineering Decoding Strategies Given Blackbox Access to a
Language Generation System [73.52878118434147]
テキスト生成に使用する復号法をリバースエンジニアリングする手法を提案する。
どのようなデコード戦略が使われたかを検出する能力は、生成されたテキストを検出することに影響を及ぼす。
論文 参考訳(メタデータ) (2023-09-09T18:19:47Z) - Pruning Pre-trained Language Models with Principled Importance and
Self-regularization [18.088550230146247]
反復プルーニングは、事前訓練された言語モデルにおいて最も効果的な圧縮手法の1つである。
モデル予測を最新のチェックポイントで正規化する自己正規化手法を提案する。
自然言語理解,質問応答,名前付きエンティティ認識,および様々なトランスフォーマーベースのPLMを用いたデータ・テキスト生成に関する実験により,様々な空間レベルにおけるアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-05-21T08:15:12Z) - A Simple, Yet Effective Approach to Finding Biases in Code Generation [16.094062131137722]
この研究は、現在のコード生成システムが、彼らの大きな言語モデルバックボーンから受け継がれた望ましくないバイアスを示すことを示している。
コーディング課題のモジュラー分解と解析を可能にする「影響ブロック」の概念を提案する。
論文 参考訳(メタデータ) (2022-10-31T15:06:15Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - A Contrastive Framework for Neural Text Generation [46.845997620234265]
モデル変性の根底にある理由はトークン表現の異方性分布であることを示す。
モデル表現空間を校正するための対照的な学習目標であるSimCTGと,生成したテキストのコヒーレンスを維持しつつ多様性を高めるためのデコード手法であるコントラスト検索を提案する。
論文 参考訳(メタデータ) (2022-02-13T21:46:14Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。