論文の概要: Reliability Under Randomness: An Empirical Analysis of Sparse and Dense Language Models Across Decoding Temperatures
- arxiv url: http://arxiv.org/abs/2601.00942v1
- Date: Fri, 02 Jan 2026 18:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.876462
- Title: Reliability Under Randomness: An Empirical Analysis of Sparse and Dense Language Models Across Decoding Temperatures
- Title(参考訳): ランダム性による信頼性:デコード温度におけるスパースモデルとデンス言語モデルの実証分析
- Authors: Kabir Grover,
- Abstract要約: スパースMoEモデルにおける条件計算がデコードによるランダム性を増幅し、温度上昇とともに信頼性を低下させるかを検討する。
その結果、スパース命令調整モデルでは、全ての復号温度で高密度命令調整モデルに匹敵する安定性を示すことが示された。
信頼性クリティカルなアプリケーションにスパース言語モデルを展開する上で,これらの結果がもたらす意味について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing prevalence of sparse Mixture-of-Experts (MoE) architectures in large language models raises important questions regarding their reliability under stochastic decoding. While conditional computation enables substantial gains in computational efficiency, it remains unclear whether the interaction between sparse routing and temperature-based sampling compromises output stability relative to dense architectures. This work investigates whether conditional computation in MoE models amplifies decoding-induced randomness, leading to reduced reliability as temperature increases. We evaluate three representative models: OLMoE-7B (sparse base), Mixtral-8x7B (sparse instruction-tuned), and Qwen2.5-3B (dense instruction-tuned) on deterministic arithmetic reasoning tasks with objectively verifiable answers. Experiments span four decoding configurations, ranging from greedy decoding to T=1.0. Our evaluation encompasses accuracy, format compliance, output consistency across repeated generations, and confidence metrics, totaling 9,360 model generations. Results demonstrate that the sparse instruction-tuned model exhibits stability comparable to the dense instruction-tuned model across all decoding temperatures, while the sparse base model shows systematic degradation as temperature increases. These findings indicate that instruction tuning, rather than architectural sparsity, is the primary determinant of robustness to decoding randomness on deterministic tasks. We discuss the implications of these results for deploying sparse language models in reliability-critical applications, highlighting scenarios in which sparse architectures can be safely adopted without sacrificing output stability.
- Abstract(参考訳): 大規模言語モデルにおけるSparse Mixture-of-Experts (MoE)アーキテクチャの普及は、確率的復号化の下での信頼性に関する重要な疑問を提起する。
条件付き計算は計算効率を大幅に向上させることができるが、スパースルーティングと温度ベースサンプリングの相互作用が高密度アーキテクチャと比較して出力安定性を損なうかどうかは不明である。
本研究は,MoEモデルにおける条件計算が復号化によるランダム性を増幅し,温度上昇とともに信頼性を低下させるかどうかを考察する。
我々は, OLMoE-7B (スパースベース), Mixtral-8x7B (スパース命令調整), Qwen2.5-3B (デンス命令調整) の3つの代表的なモデルを評価する。
実験は、greedyデコードからT=1.0までの4つのデコード構成にまたがる。
評価には、精度、フォーマットコンプライアンス、繰り返し世代間の出力整合性、信頼度などが含まれており、モデル世代は9,360である。
その結果、スパース命令調整モデルでは、すべての復号温度で高密度命令調整モデルに匹敵する安定性を示す一方、スパースベースモデルは温度上昇とともに体系的な劣化を示すことがわかった。
これらの結果から, 決定論的タスクにおけるランダム性を復号化するためには, 構造的疎度ではなく, 命令チューニングがロバスト性の主要な決定要因であることが示唆された。
信頼性クリティカルなアプリケーションにスパース言語モデルを配置する上で,これらの結果がもたらす意味について論じるとともに,スパースアーキテクチャを出力安定性を犠牲にすることなく安全に採用できるシナリオを強調した。
関連論文リスト
- Prompt Stability in Code LLMs: Measuring Sensitivity across Emotion- and Personality-Driven Variations [40.12950482269347]
本稿では,感情テンプレートと人格テンプレートを用いた意味論的に等価なプロンプト変種を生成するフレームワークであるPromptSEを提案する。
本研究は、性能と安定性が、主に分離された最適化目標として振る舞うことを示す。
PromptSEは、デプロイとモデル選択のためのパフォーマンス安定性トレードオフの定量化を可能にする。
論文 参考訳(メタデータ) (2025-09-17T04:17:42Z) - Analyzing the Instability of Large Language Models in Automated Bug Injection and Correction [0.0]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクで使用される。
同じ入力で異なるタイミングで実行すると、根本的に異なるコードを生成することができる。
本研究では、コードバグの修正に関して、LLMがいかに不安定かを検討する。
論文 参考訳(メタデータ) (2025-09-08T08:23:49Z) - Discrete Diffusion Models for Language Generation [0.0]
本論文は、自然言語生成のための離散拡散モデルの実現可能性と性能について考察する。
我々は、生成性能を評価するためにBits Per Token(BPT)、Negative Log-Likelihood(NLL)、Perplexity(PPL)、Batch Processing Speedを使用します。
ARモデルは平均BPTが4.59で圧縮性能が向上するが、D3PMは処理速度が向上し、毎秒3.97バッチに達する。
論文 参考訳(メタデータ) (2025-07-02T23:43:02Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - ConDiSim: Conditional Diffusion Models for Simulation Based Inference [2.1493648495606354]
ConDiSimは、計算可能な確率を持つ複素系のシミュレーションに基づく推論のための条件拡散モデルである。
10のベンチマーク問題と2つの実世界のテスト問題で評価され、有効な後部近似の精度を示す。
論文 参考訳(メタデータ) (2025-05-13T09:58:23Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Numerically Stable Sparse Gaussian Processes via Minimum Separation
using Cover Trees [57.67528738886731]
誘導点に基づくスケーラブルスパース近似の数値安定性について検討する。
地理空間モデリングなどの低次元タスクに対しては,これらの条件を満たす点を自動計算する手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T15:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。