論文の概要: How Alignment Shrinks the Generative Horizon
- arxiv url: http://arxiv.org/abs/2506.17871v1
- Date: Sun, 22 Jun 2025 02:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.6271
- Title: How Alignment Shrinks the Generative Horizon
- Title(参考訳): 配向はいかにして生成水平を縮めるか
- Authors: Chenghao Yang, Ari Holtzman,
- Abstract要約: 分岐因子(BF)は、生成中の有効な可算次のステップ数のトークン不変測度である。
アライメントチューニングは、モデルの出力分布をアウトセットから大幅にシャープします。
この知見に基づいて、この安定性は複雑な推論に驚くべき意味を持つ。
- 参考スコア(独自算出の注目度): 20.243063721305116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their impressive capabilities, aligned large language models (LLMs) often generate outputs that lack diversity. What drives this stability in the generation? We investigate this phenomenon through the lens of probability concentration in the model's output distribution. To quantify this concentration, we introduce the Branching Factor (BF) -- a token-invariant measure of the effective number of plausible next steps during generation. Our empirical analysis reveals two key findings: (1) BF often decreases as generation progresses, suggesting that LLMs become more predictable as they generate. (2) alignment tuning substantially sharpens the model's output distribution from the outset, reducing BF by nearly an order of magnitude (e.g., from 12 to 1.2) relative to base models. This stark reduction helps explain why aligned models often appear less sensitive to decoding strategies. Building on this insight, we find this stability has surprising implications for complex reasoning. Aligned Chain-of-Thought (CoT) models (e.g., DeepSeek-distilled models), for instance, leverage this effect; by generating longer reasoning chains, they push generation into later, more deterministic (lower BF) stages, resulting in more stable outputs. We hypothesize that alignment tuning does not fundamentally change a model's behavior, but instead steers it toward stylistic tokens (e.g., "Sure") that unlock low-entropy trajectories already present in the base model. This view is supported by nudging experiments, which show that prompting base models with such tokens can similarly reduce BF. Together, our findings establish BF as a powerful diagnostic for understanding and controlling LLM outputs - clarifying how alignment reduces variability, how CoT promotes stable generations, and how base models can be steered away from diversity.
- Abstract(参考訳): 印象的な機能にもかかわらず、大きな言語モデル(LLM)は、多様性に欠けるアウトプットを生成することが多い。
この安定性を世代にもたらすのはなぜか?
モデル出力分布における確率集中レンズを用いて,この現象を考察する。
この濃度を定量化するために、生成中の有効な可算次のステップ数を示すトークン不変測度である分岐因子(BF)を導入する。
1)BFは生成が進むにつれて減少し,LLMが生成するにつれて予測しやすくなることが示唆された。
2)アライメントチューニングは、ベースモデルと比較してBFをほぼ1桁(例えば12から1.2)削減する。
このスターク削減は、アライメントモデルがデコード戦略に敏感でないことが多い理由を説明するのに役立ちます。
この知見に基づいて、この安定性は複雑な推論に驚くべき意味を持つ。
例えば、CoT(Chain-of-Thought)モデル(例えばDeepSeekで蒸留されたモデル)は、この効果を利用する。
我々は、アライメントチューニングがモデルの振る舞いを根本的に変えるのではなく、ベースモデルにすでに存在する低エントロピー軌道をアンロックするスタイリスティックなトークン(例:"Sure")に方向付けする、という仮説を立てる。
この見解はnudging実験によって支持され、このようなトークンでベースモデルをプロンプトすることは同様にBFを減少させることを示した。
この結果から,LLM出力の理解と制御のための強力な診断手法としてBFが確立され,アライメントが多様性を低下させるか,CoTが安定世代をいかに促進するか,ベースモデルが多様性から切り離すことができるかが明らかになった。
関連論文リスト
- A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective [8.15094483029656]
拡散モデルは並列トークンサンプリングを可能にし、より高速な生成と左から右への生成制約を排除する。
我々は情報理論の観点から拡散言語モデルの収束保証を開発する。
これらの結果は拡散言語モデルの実用性に関する新たな理論的洞察を与える。
論文 参考訳(メタデータ) (2025-05-27T16:24:20Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Language Models Resist Alignment: Evidence From Data Compression [11.208226196119895]
大型言語モデル(LLM)は意図しないあるいは望ましくない振る舞いを示すことがある。
微調整が事前学習に対するアライメントを著しく損なうことを示す。
本研究は,LLMの弾性特性に対処し,アライメントに対する抵抗を緩和する必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-10T10:03:16Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Spontaneous Symmetry Breaking in Generative Diffusion Models [6.4322891559626125]
生成拡散モデルは近年,高次元データ生成の先導的アプローチとして浮上している。
これらのモデルの力学は、生成力学を2つの異なる位相に分割する自発的対称性の破れを示す。
本稿では,より高性能でバイアスの少ない高速サンプリングを実現する可能性を持つ拡散モデルの生成力学を理解するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T09:36:34Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。