論文の概要: LZ Penalty: An information-theoretic repetition penalty for autoregressive language models
- arxiv url: http://arxiv.org/abs/2504.20131v1
- Date: Mon, 28 Apr 2025 17:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.616987
- Title: LZ Penalty: An information-theoretic repetition penalty for autoregressive language models
- Title(参考訳): LZ Penalty:自己回帰型言語モデルに対する情報理論的繰り返しペナルティ
- Authors: Antonio A. Ginart, Naveen Kodali, Jason Lee, Caiming Xiong, Silvio Savarese, John R. Emmons,
- Abstract要約: LZペナルティ(LZ penalty)は,自己回帰言語モデルにおいて,能力の喪失を伴わない縮退反復を減らしたペナルティである。
我々は、LZペナルティにより、最先端のオープンソース推論モデルがgreedy(温度0)デコードで動作できることを実証する。
- 参考スコア(独自算出の注目度): 61.20524041621698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the LZ penalty, a penalty specialized for reducing degenerate repetitions in autoregressive language models without loss of capability. The penalty is based on the codelengths in the LZ77 universal lossless compression algorithm. Through the lens of the prediction-compression duality, decoding the LZ penalty has the interpretation of sampling from the residual distribution after removing the information that is highly compressible. We demonstrate the LZ penalty enables state-of-the-art open-source reasoning models to operate with greedy (temperature zero) decoding without loss of capability and without instances of degenerate repetition. Both the industry-standard frequency penalty and repetition penalty are ineffective, incurring degenerate repetition rates of up to 4%.
- Abstract(参考訳): LZペナルティ(LZ penalty)は,自己回帰言語モデルにおいて,能力の喪失を伴わない縮退反復を減らしたペナルティである。
このペナルティはLZ77普遍無損失圧縮アルゴリズムの符号長に基づいている。
予測圧縮双対性のレンズを通して、LZペナルティの復号化は、高度に圧縮可能な情報を除去した後の残留分布からのサンプリングの解釈を有する。
我々は、LZペナルティにより、最先端のオープンソース推論モデルが、能力の喪失や縮退を繰り返しないことなく、greedy(温度ゼロ)デコードで動作できることを実証する。
業界標準の周波数のペナルティと繰り返しのペナルティはどちらも効果がなく、退行の繰り返し率は最大4%である。
関連論文リスト
- (G)I-DLE: Generative Inference via Distribution-preserving Logit Exclusion with KL Divergence Minimization for Constrained Decoding [0.0]
(G)I-DLEは、KLの発散を利用して自己回帰言語モデルの固有条件確率分布を保存する制約付き復号法である。
我々はK2-Evalデータセット上で,韓国語の流布度を評価するために,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-03-23T12:37:14Z) - DiffusionAttacker: Diffusion-Driven Prompt Manipulation for LLM Jailbreak [51.8218217407928]
大規模言語モデル (LLM) は、慎重に入力を行うと有害なコンテンツを生成する可能性がある。
本稿では,拡散モデルにインスパイアされたジェイルブレイク書き換えのためのエンドツーエンド生成手法であるDiffusionAttackerを紹介する。
論文 参考訳(メタデータ) (2024-12-23T12:44:54Z) - Linear Probe Penalties Reduce LLM Sycophancy [3.6490659260835234]
大規模言語モデル(LLM)は、しばしばサイコファンであり、正確または客観的なステートメントよりもユーザとの合意を優先する。
ヒトフィードバック(RLHF)からの強化学習において、この問題行動はより顕著になる
本研究では,報酬モデル内でサイコファンシーのマーカーを識別し,ペナルティ化する線形探索法を開発し,サイコファンの行動を妨げる報酬を生成する。
論文 参考訳(メタデータ) (2024-12-01T21:11:28Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - Penalty Decoding: Well Suppress the Self-Reinforcement Effect in
Open-Ended Text Generation [6.139765897484331]
本稿では,テキスト生成における自己強化効果と,それを緩和するための繰り返しペナルティの有効性について検討する。
本稿では, 遠いトークンを無視し, ペナルティ選択の負担を軽減する機構を提案する。
また,過度な罰則による過度に短い文に対処するために,長さのペナルティを導入する。
論文 参考訳(メタデータ) (2023-10-23T14:20:04Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Joint Repetition Suppression and Content Moderation of Large Language
Models [4.9990392459395725]
自然言語生成(NLG)は、NLPにおいて最も影響力のある分野の一つである。
本稿では,トークンとシーケンスレベルを用いた非実効的繰り返し抑制に適用する。
また,攻撃的な単語の生成を避けるために,モデルに協調的に支援するために,違和感のある学習目標の枠組みについても検討する。
論文 参考訳(メタデータ) (2023-04-20T19:17:49Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。