論文の概要: D-Models and E-Models: Diversity-Stability Trade-offs in the Sampling Behavior of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.17865v1
- Date: Sun, 25 Jan 2026 14:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.49474
- Title: D-Models and E-Models: Diversity-Stability Trade-offs in the Sampling Behavior of Large Language Models
- Title(参考訳): DモデルとEモデル:大言語モデルのサンプリング行動における多様性と安定性のトレードオフ
- Authors: Jia Gu, Liang Pang, Huawei Shen, Xueqi Cheng,
- Abstract要約: 大規模言語モデル(LLMs)では、次の情報の関連性確率は、次の製品の関連性確率に関連付けられる。
しかし、きめ細かいサンプリング確率がタスク要求に忠実に適合するかどうかは未解決の問題だ。
P_tokenが大きなステップ・ツー・ステップの変動を示し、P_taskとの整合性が低いDモデルと、P_tokenがより安定してP_taskに整合するEモデルである。
- 参考スコア(独自算出の注目度): 91.21455683212224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The predictive probability of the next token (P_token) in large language models (LLMs) is inextricably linked to the probability of relevance for the next piece of information, the purchase probability of the next product, and the execution probability of the next action-all of which fall under the scope of the task-level target distribution (P_task). While LLMs are known to generate samples that approximate real-world distributions, whether their fine-grained sampling probabilities faithfully align with task requirements remains an open question. Through controlled distribution-sampling simulations, we uncover a striking dichotomy in LLM behavior, distinguishing two model types: D-models (e.g. Qwen-2.5), whose P_token exhibits large step-to-step variability and poor alignment with P_task; and E-models (e.g. Mistral-Small), whose P_token is more stable and better aligned with P_task. We further evaluate these two model types in downstream tasks such as code generation and recommendation, revealing systematic trade-offs between diversity and stability that shape task outcomes. Finally, we analyze the internal properties of both model families to probe their underlying mechanisms. These findings offer foundational insights into the probabilistic sampling behavior of LLMs and provide practical guidance on when to favor D- versus E-models. For web-scale applications, including recommendation, search, and conversational agents, our results inform model selection and configuration to balance diversity with reliability under real-world uncertainty, providing a better level of interpretation.
- Abstract(参考訳): 大規模言語モデル(LLMs)における次のトークン(P_token)の予測確率は、タスクレベル目標分布(P_task)の範囲内にある次の情報の関連性確率、次の商品の購入確率、および次のアクションオールの実行確率と密接に関連している。
LLMは実世界の分布を近似するサンプルを生成することが知られているが、その微細なサンプリング確率がタスク要求と忠実に一致しているかは未解決のままである。
制御された分布サンプリングシミュレーションにより,P_tokenとP_taskの相違が大きいDモデル (eg Qwen-2.5) と,P_tokenがP_taskとより安定で整合性がよいEモデル (eg Mistral-Small) の2つのモデルタイプを区別した。
さらに、コード生成やリコメンデーションといった下流タスクにおけるこれらの2つのモデルタイプを評価し、タスク結果を形成する多様性と安定性の間の体系的なトレードオフを明らかにする。
最後に、モデルファミリーの内部特性を分析し、その基盤となるメカニズムを探索する。
これらの知見は, LLMの確率的サンプリング行動に関する基礎的な知見を提供し, D-モデルとE-モデルとの相違点について実践的なガイダンスを提供する。
推薦,検索,会話エージェントを含むWebスケールアプリケーションの場合,本研究の結果は,モデル選択と構成を現実世界の不確実性下での信頼性とバランスさせ,より優れた解釈レベルを提供する。
関連論文リスト
- Learning Compact Representations of LLM Abilities via Item Response Theory [35.74367665390977]
大規模言語モデル(LLM)のコンパクト表現の学習方法について検討する。
この問題は、与えられたモデルが特定のクエリに正しく答える確率を推定するものである。
これらのパラメータを共同で学習するために、モデルとクエリレベルの埋め込みを結合するMixture-of-Experts(MoE)ネットワークを導入する。
論文 参考訳(メタデータ) (2025-10-01T12:55:34Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - Evaluating Binary Decision Biases in Large Language Models: Implications for Fair Agent-Based Financial Simulations [15.379345372327375]
エージェントベースの金融市場モデルにおいて、人間のような意思決定をシミュレートするために、LLM(Large Language Models)がますます使われている。
我々は,2つのモデルサンプリングアプローチ(ワンショットと少数ショットのAPIクエリ)を用いて,最先端のGPTモデル3つをバイアスとして検証する。
論文 参考訳(メタデータ) (2025-01-20T10:36:51Z) - Quantifying Prediction Consistency Under Fine-Tuning Multiplicity in Tabular LLMs [10.494477811252034]
微調整多重度は分類タスクにおけるタブラル LLM に現れる。
我々の研究は、タブラルLLMにおける微調整多重性というこのユニークな挑戦を定式化する。
本稿では,コストのかかるモデル再訓練を伴わずに,個々の予測の一貫性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。
このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。
分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-13T16:59:28Z) - PSD Representations for Effective Probability Models [117.35298398434628]
最近提案された非負関数に対する正半定値(PSD)モデルがこの目的に特に適していることを示す。
我々はPSDモデルの近似と一般化能力の両方を特徴付け、それらが強い理論的保証を享受していることを示す。
本研究では,PSDモデルの密度推定,決定理論,推論への応用への道を開く。
論文 参考訳(メタデータ) (2021-06-30T15:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。