論文の概要: Quantifying non deterministic drift in large language models
- arxiv url: http://arxiv.org/abs/2601.19934v1
- Date: Mon, 12 Jan 2026 10:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.559999
- Title: Quantifying non deterministic drift in large language models
- Title(参考訳): 大規模言語モデルにおける非決定論的ドリフトの定量化
- Authors: Claire Nicholson,
- Abstract要約: 大規模言語モデル(LLM)は、要約から意思決定支援まで幅広いタスクに広く使われている。
実際には、温度や他の復号パラメータが固定されている場合でも、同じプロンプトが常に同じ出力を生成するとは限らない。
我々は,演算子フリー条件下で同じプロンプトが複数回発行された場合に観測される出力変数として定義される振る舞いベースラインドリフトを定量化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are widely used for tasks ranging from summarisation to decision support. In practice, identical prompts do not always produce identical outputs, even when temperature and other decoding parameters are fixed. In this work, we conduct repeated-run experiments to empirically quantify baseline behavioural drift, defined as output variability observed when the same prompt is issued multiple times under operator-free conditions. We evaluate two publicly accessible models, gpt-4o-mini and llama3.1-8b, across five prompt categories using exact repeats, perturbed inputs, and reuse modes at temperatures of 0.0 and 0.7. Drift is measured using unique output fractions, lexical similarity, and word count statistics, enabling direct comparison across models, prompting modes, and deployment types. The results show that nondeterminism persists even at temperature 0.0, with distinct variability patterns by model size, deployment, and prompt type. We situate these findings within existing work on concept drift, behavioural drift, and infrastructure-induced nondeterminism, discuss the limitations of lexical metrics, and highlight emerging semantic approaches. By establishing a systematic empirical baseline in the absence of stabilisation techniques, this study provides a reference point for evaluating future drift mitigation and control methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、要約から意思決定支援まで幅広いタスクに広く使われている。
実際には、温度や他の復号パラメータが固定されている場合でも、同じプロンプトが常に同じ出力を生成するとは限らない。
本研究では,演算子フリー条件下で複数回同じプロンプトが発行された場合に観測される出力変数として定義される,ベースライン挙動のドリフトを実験的に定量化するための繰り返し実行実験を行う。
我々は,0~0.7の温度での正確な繰り返し,摂動入力,再利用モードを用いて,gpt-4o-miniとllama3.1-8bの2つのパブリックモデルを評価する。
ドリフトはユニークな出力率、語彙的類似度、単語数統計を用いて測定され、モデル間の直接比較、プロンプトモード、配置タイプが可能である。
その結果、非決定性は0.0温度でも持続し、モデルサイズ、展開、プロンプトタイプによって異なる変動パターンを持つことが明らかとなった。
これらの知見は,概念ドリフト,行動ドリフト,インフラストラクチャが引き起こす非決定論に関する既存の研究の中にあり,語彙メトリクスの限界について議論し,新たな意味的アプローチを強調している。
本研究は,安定化技術が存在しない場合に,系統的な経験的ベースラインを確立することにより,将来のドリフト緩和と制御方法を評価するための基準点を提供する。
関連論文リスト
- Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。
最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。
そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:41:26Z) - Distinguishing Cause from Effect with Causal Velocity Models [3.0523869645673076]
本研究では,加法や位置スケールノイズなどの既知のモデルクラスを超えて,因果発見を行う手法を開発した。
スコアが適切に推定された場合、その目的はまた、モデルの非識別性や不特定性を検出するのにも有用である。
論文 参考訳(メタデータ) (2025-02-07T17:50:14Z) - On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。
ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。
我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:08:05Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - On the Impact of Temporal Concept Drift on Model Explanations [31.390397997989712]
自然言語処理におけるモデル予測の表現忠実度は、トレーニングデータと同じ時間分布から保持されたデータに基づいて評価する。
8つの特徴属性法と3つの選択列予測モデルにより抽出されたモデル説明に対する時間的変動の影響について検討した。
論文 参考訳(メタデータ) (2022-10-17T15:53:09Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Suitability of Different Metric Choices for Concept Drift Detection [9.76294323004155]
ドリフト検出のための多くの教師なしのアプローチは、2つの時間窓のサンプル間の差を測定することに依存している。
ほとんどのドリフト検出法は、どの計量を使用するか、この計量がどのように推定されるか、どのように決定しきい値が見つかるかで区別できる。
我々は,異なる種類の推定器と測定器を理論的,実証的に比較し,単一の測定器の関連性について検討する。
論文 参考訳(メタデータ) (2022-02-19T01:11:32Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。