論文の概要: What do Language Model Probabilities Represent? From Distribution Estimation to Response Prediction
- arxiv url: http://arxiv.org/abs/2505.02072v1
- Date: Sun, 04 May 2025 11:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.411504
- Title: What do Language Model Probabilities Represent? From Distribution Estimation to Response Prediction
- Title(参考訳): 言語モデル確率の表現法 : 分布推定から応答予測へ
- Authors: Eitan Wagner, Omri Abend,
- Abstract要約: 異なる設定が3つの異なる意図された出力分布につながると我々は主張する。
NLP研究はこれらの分布がよく似ていると仮定し、実験結果の誤解釈につながることを実証する。
- 参考スコア(独自算出の注目度): 16.63148156570219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The notion of language modeling has gradually shifted in recent years from a distribution over finite-length strings to general-purpose prediction models for textual inputs and outputs, following appropriate alignment phases. This paper analyzes the distinction between distribution estimation and response prediction in the context of LLMs, and their often conflicting goals. We examine the training phases of LLMs, which include pretraining, in-context learning, and preference tuning, and also the common use cases for their output probabilities, which include completion probabilities and explicit probabilities as output. We argue that the different settings lead to three distinct intended output distributions. We demonstrate that NLP works often assume that these distributions should be similar, which leads to misinterpretations of their experimental findings. Our work sets firmer formal foundations for the interpretation of LLMs, which will inform ongoing work on the interpretation and use of LLMs' induced distributions.
- Abstract(参考訳): 言語モデリングの概念は、有限長文字列上の分布から、適切なアライメントフェーズに従ってテキスト入力と出力の汎用予測モデルへと、近年徐々に移行してきた。
本稿では,LLMの文脈における分布推定と応答予測の区別とその相反する目標について分析する。
本研究は, 事前学習, 文脈内学習, 嗜好調整を含むLCMの学習段階と, 出力確率の一般的な利用形態について検討する。
異なる設定は、3つの異なる意図された出力分布につながると我々は主張する。
NLP研究はこれらの分布がよく似ていると仮定し、実験結果の誤解釈につながることを実証する。
本研究は, LLMの解釈に関する公式な基礎を定め, LLMの誘導分布の解釈と利用について現在進行中の成果を報告する。
関連論文リスト
- LLM Generated Distribution-Based Prediction of US Electoral Results, Part I [0.0]
本稿では,Large Language Models (LLM) を予測ツールとして利用するための新しいアプローチである分布ベース予測を紹介する。
我々は、近年のアメリカ合衆国大統領選挙の文脈において、分布に基づく予測の使用を実演する。
論文 参考訳(メタデータ) (2024-11-05T20:10:25Z) - What Are the Odds? Language Models Are Capable of Probabilistic Reasoning [23.487484744911995]
本稿では,言語モデル(LM)の確率論的推論能力を,理想化および実世界の統計分布を用いて評価することに集中する。
本研究では,パーセンタイルの推定,サンプルの描画,確率の計算という3つのタスクにおいて,最先端のLMの体系的評価を行う。
論文 参考訳(メタデータ) (2024-06-18T17:51:24Z) - Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。
本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:52:22Z) - Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。
このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。
分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-13T16:59:28Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。