論文の概要: Distribution Prompting: Understanding the Expressivity of Language Models Through the Next-Token Distributions They Can Produce
- arxiv url: http://arxiv.org/abs/2505.12244v1
- Date: Sun, 18 May 2025 05:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.115068
- Title: Distribution Prompting: Understanding the Expressivity of Language Models Through the Next-Token Distributions They Can Produce
- Title(参考訳): 分散プロンプティング: 生成可能な次世代分布を通して言語モデルの表現性を理解する
- Authors: Haojin Wang, Zining Zhu, Freda Shi,
- Abstract要約: いくつかの分布は、他の分布よりもはるかに困難であることを示す。
非常に低いエントロピーあるいは非常に高いエントロピーの分布は、中間エントロピーの分布よりも近似が容易である。
- 参考スコア(独自算出の注目度): 10.369289331969098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive neural language models (LMs) generate a probability distribution over tokens at each time step given a prompt. In this work, we attempt to systematically understand the probability distributions that LMs can produce, showing that some distributions are significantly harder to elicit than others. Specifically, for any target next-token distribution over the vocabulary, we attempt to find a prompt that induces the LM to output a distribution as close as possible to the target, using either soft or hard gradient-based prompt tuning. We find that (1) in general, distributions with very low or very high entropy are easier to approximate than those with moderate entropy; (2) among distributions with the same entropy, those containing ''outlier tokens'' are easier to approximate; (3) target distributions generated by LMs -- even LMs with different tokenizers -- are easier to approximate than randomly chosen targets. These results offer insights into the expressiveness of LMs and the challenges of using them as probability distribution proposers.
- Abstract(参考訳): 自己回帰型ニューラルネットワークモデル(LM)は、プロンプトを与えられた各ステップでトークン上の確率分布を生成する。
本研究では,LMが生み出す確率分布を体系的に理解しようと試み,ある分布が他の分布よりもはるかに困難であることを示す。
具体的には、語彙上の任意の次トーケン分布に対して、軟勾配または硬勾配に基づくプロンプトチューニングを用いて、LMに可能な限り近い分布を出力させるプロンプトを見つけようとする。
一般に,(1) エントロピーが非常に低い,あるいは非常に高い分布は,中間エントロピーよりも近似し易い,(2) 同じエントロピーを持つ分布では,'outlier tokens' を含む分布は近似し易く,(3) LM が生成するターゲット分布(異なるトークン化剤を持つ LM も)は,ランダムに選択されたターゲットよりも近似し易い,という結果が得られた。
これらの結果から, LMの表現性や, 確率分布プロポータとして利用することの課題について考察した。
関連論文リスト
- Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Label Distribution Learning using the Squared Neural Family on the Probability Simplex [15.680835401104247]
ラベル分布学習モデルSNEFY-LDLを提案する。
単純体上の全ての可能なラベル分布の確率分布を推定する。
基礎構造ラベル分布を予測し、ラベル分布の信頼区間を構築し、異なるラベル間の相関を測定できる。
論文 参考訳(メタデータ) (2024-12-10T09:12:02Z) - OD-Stega: LLM-Based Near-Imperceptible Steganography via Optimized Distributions [7.611860976107124]
本研究では,Large Language Modelが算術符号デコーダを駆動してステゴテキストを生成する,隠蔽型ステガノグラフィについて考察する。
効率的な方法は、秘密のメッセージビットをできるだけ少数の言語トークンに埋め込む必要がある。
論文 参考訳(メタデータ) (2024-10-06T01:30:45Z) - What Are the Odds? Language Models Are Capable of Probabilistic Reasoning [23.487484744911995]
本稿では,言語モデル(LM)の確率論的推論能力を,理想化および実世界の統計分布を用いて評価することに集中する。
本研究では,パーセンタイルの推定,サンプルの描画,確率の計算という3つのタスクにおいて,最先端のLMの体系的評価を行う。
論文 参考訳(メタデータ) (2024-06-18T17:51:24Z) - Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。
このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。
分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-13T16:59:28Z) - How Does Independence Help Generalization? Sample Complexity of ERM on
Product Distributions [5.553167334488855]
経験的リスク最小化(ERM)は製品分布を学習するために指数的なサンプル数を必要とするが,製品分布に特化して設計されたアルゴリズムが必要であることを示す。
これにより、製品配布自体が学習問題を容易なものにしないという結論が導かれる。
論文 参考訳(メタデータ) (2022-12-13T08:14:32Z) - Score-Based Diffusion meets Annealed Importance Sampling [89.92133671626327]
Annealed Importance Smpling はいまだに限界推定の最も効果的な方法の1つである。
我々は、スコアベース生成モデルにおける最近の進歩を活用し、AIS提案の最適拡張目標分布を近似する。
論文 参考訳(メタデータ) (2022-08-16T12:13:29Z) - Personalized Trajectory Prediction via Distribution Discrimination [78.69458579657189]
トラリミー予測は将来の力学のマルチモーダルな性質を捉えるジレンマと対立する。
本研究では,パーソナライズされた動作パターンを予測するDisDisDis(Disdis)手法を提案する。
本手法は,プラグイン・アンド・プレイモジュールとして既存のマルチモーダル予測モデルと統合することができる。
論文 参考訳(メタデータ) (2021-07-29T17:42:12Z) - Robust Learning of Optimal Auctions [84.13356290199603]
本研究では、入札者の評価値のサンプルを逆向きに破損させたり、逆向きに歪んだ分布から引き出すことができる場合に、サンプルから収益-最適マルチバイダオークションを学習する問題について検討する。
我々は,コルモゴロフ-スミルノフ距離における元の分布に対して$alpha$-closeの「全ての真の分布」に対して,収入がほぼ同時に最適であるメカニズムを学習できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T17:37:21Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。