論文の概要: Distribution Prompting: Understanding the Expressivity of Language Models Through the Next-Token Distributions They Can Produce
- arxiv url: http://arxiv.org/abs/2505.12244v1
- Date: Sun, 18 May 2025 05:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.115068
- Title: Distribution Prompting: Understanding the Expressivity of Language Models Through the Next-Token Distributions They Can Produce
- Title(参考訳): 分散プロンプティング: 生成可能な次世代分布を通して言語モデルの表現性を理解する
- Authors: Haojin Wang, Zining Zhu, Freda Shi,
- Abstract要約: いくつかの分布は、他の分布よりもはるかに困難であることを示す。
非常に低いエントロピーあるいは非常に高いエントロピーの分布は、中間エントロピーの分布よりも近似が容易である。
- 参考スコア(独自算出の注目度): 10.369289331969098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive neural language models (LMs) generate a probability distribution over tokens at each time step given a prompt. In this work, we attempt to systematically understand the probability distributions that LMs can produce, showing that some distributions are significantly harder to elicit than others. Specifically, for any target next-token distribution over the vocabulary, we attempt to find a prompt that induces the LM to output a distribution as close as possible to the target, using either soft or hard gradient-based prompt tuning. We find that (1) in general, distributions with very low or very high entropy are easier to approximate than those with moderate entropy; (2) among distributions with the same entropy, those containing ''outlier tokens'' are easier to approximate; (3) target distributions generated by LMs -- even LMs with different tokenizers -- are easier to approximate than randomly chosen targets. These results offer insights into the expressiveness of LMs and the challenges of using them as probability distribution proposers.
- Abstract(参考訳): 自己回帰型ニューラルネットワークモデル(LM)は、プロンプトを与えられた各ステップでトークン上の確率分布を生成する。
本研究では,LMが生み出す確率分布を体系的に理解しようと試み,ある分布が他の分布よりもはるかに困難であることを示す。
具体的には、語彙上の任意の次トーケン分布に対して、軟勾配または硬勾配に基づくプロンプトチューニングを用いて、LMに可能な限り近い分布を出力させるプロンプトを見つけようとする。
一般に,(1) エントロピーが非常に低い,あるいは非常に高い分布は,中間エントロピーよりも近似し易い,(2) 同じエントロピーを持つ分布では,'outlier tokens' を含む分布は近似し易く,(3) LM が生成するターゲット分布(異なるトークン化剤を持つ LM も)は,ランダムに選択されたターゲットよりも近似し易い,という結果が得られた。
これらの結果から, LMの表現性や, 確率分布プロポータとして利用することの課題について考察した。
関連論文リスト
- Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - What Are the Odds? Language Models Are Capable of Probabilistic Reasoning [23.487484744911995]
本稿では,言語モデル(LM)の確率論的推論能力を,理想化および実世界の統計分布を用いて評価することに集中する。
本研究では,パーセンタイルの推定,サンプルの描画,確率の計算という3つのタスクにおいて,最先端のLMの体系的評価を行う。
論文 参考訳(メタデータ) (2024-06-18T17:51:24Z) - Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。
このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。
分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-13T16:59:28Z) - How Does Independence Help Generalization? Sample Complexity of ERM on
Product Distributions [5.553167334488855]
経験的リスク最小化(ERM)は製品分布を学習するために指数的なサンプル数を必要とするが,製品分布に特化して設計されたアルゴリズムが必要であることを示す。
これにより、製品配布自体が学習問題を容易なものにしないという結論が導かれる。
論文 参考訳(メタデータ) (2022-12-13T08:14:32Z) - Score-Based Diffusion meets Annealed Importance Sampling [89.92133671626327]
Annealed Importance Smpling はいまだに限界推定の最も効果的な方法の1つである。
我々は、スコアベース生成モデルにおける最近の進歩を活用し、AIS提案の最適拡張目標分布を近似する。
論文 参考訳(メタデータ) (2022-08-16T12:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。