論文の概要: Dataset-Level Metrics Attenuate Non-Determinism: A Fine-Grained Non-Determinism Evaluation in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2604.13413v1
- Date: Wed, 15 Apr 2026 02:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.355176
- Title: Dataset-Level Metrics Attenuate Non-Determinism: A Fine-Grained Non-Determinism Evaluation in Diffusion Language Models
- Title(参考訳): Dataset-Level Metrics Attenuate Non-Determinism: A Fine-Grained Non-Determinism Evaluation in Diffusion Language Models
- Authors: Zhengyu Fang, Zhimeng Jiang, Huiyuan Chen, Xiaoge Zhang, Tianyi Li, Kaiyu Tang, Xiao Li, Jing Li,
- Abstract要約: 拡散言語モデル(DLM)は、大規模言語モデル(LLM)にとって有望なパラダイムとして登場した。
そこで本研究では,DLMにおける非決定性は,サンプルレベルの予測品質を異なるランで集約することにより,体系的に緩和されることを示す。
解析の結果、DLMの非決定性は広範かつ構造化されており、コード生成は質問応答よりも因子レベルの選択に対する感度が著しく高いことがわかった。
- 参考スコア(独自算出の注目度): 18.02812057933357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (DLMs) have emerged as a promising paradigm for large language models (LLMs), yet the non-deterministic behavior of DLMs remains poorly understood. The existing non-determinism evaluations for LLMs predominantly rely on dataset-level metrics under fixed inference configurations, providing limited insight into how model behavior varies across runs and evaluation conditions. In this work, we show that dataset-level metrics systematically attenuate non-determinism in diffusion language models by aggregating sample-level prediction quality across different runs. As a result, configurations with similar aggregate performance can exhibit substantially different behaviors on individual inputs, leaving fine-grained instability and distinct error patterns uncharacterized. To address this limitation, we conduct a fine-grained evaluation of non-determinism based on sample-level prediction differences across a range of model-related factors-including guidance scale, diffusion steps, and Monte Carlo sampling-as well as system-related factors such as batch size, hardware, and numerical precision. Our analysis reveals that non-determinism in DLMs is pervasive and structured, with code generation exhibiting markedly higher sensitivity to factor-level choices than question answering. To attribute sources of non-determinism evaluation, we introduce Factor Variance Attribution (FVA), a cross-factor analysis metric that decomposes observed non-determinism into variance attributable to different evaluation factor settings. Our findings highlight the need for fine-grained, factor-aware evaluation to enable reliable non-determinism assessment of diffusion language models.
- Abstract(参考訳): 拡散言語モデル (DLM) は大規模言語モデル (LLM) にとって有望なパラダイムとして登場したが、DLMの非決定論的挙動はいまだに理解されていない。
LLMに対する既存の非決定論的評価は、主に固定された推論構成の下でのデータセットレベルのメトリクスに依存しており、実行と評価条件の間でモデルの振る舞いがどのように変化するかについての限られた洞察を与えている。
本研究では,分散言語モデルにおける非決定性(非決定性)を,サンプルレベルの予測品質を異なるランで集約することにより,系統的に緩和することを示す。
結果として、類似の集約性能を持つ構成は、個々の入力に対してかなり異なる振る舞いを示すことができ、きめ細かい不安定さと異なるエラーパターンが特徴化されていないままである。
この制限に対処するため、モデル関連因子(ガイダンススケール、拡散ステップ、モンテカルロサンプリングを含む)と、バッチサイズ、ハードウェア、数値精度などのシステム関連因子)のサンプルレベルの予測差に基づいて、非決定性の評価を行う。
解析の結果、DLMの非決定性は広範かつ構造化されており、コード生成は質問応答よりも因子レベルの選択に対する感度が著しく高いことがわかった。
非決定性評価の源泉として、観測された非決定性を異なる評価因子設定に起因する分散に分解するクロスファクタ分析指標FVA(Facter Variance Attribution)を導入する。
本研究は,拡散言語モデルの信頼性の高い非決定性評価を可能にするための,因子認識のきめ細かい評価の必要性を強調した。
関連論文リスト
- A Theoretical Framework for Statistical Evaluability of Generative Models [57.9316356505791]
本稿では、生成モデルを評価するための理論的枠組みを導入し、一般的なメトリクスに対する評価結果を確立する。
テストベースのメトリクス、例えば積分確率測定(IPM)とレニイ発散(Rényi divergences)の2つのカテゴリについて検討する。
任意の有界テストクラスに対するIPMは、乗法および加法近似誤差まで有限標本から評価できることを示す。
対照的に、レニイとKLの発散は、希少事象によってその値が批判的に決定されるため、有限標本から評価できない。
論文 参考訳(メタデータ) (2026-04-07T01:53:59Z) - LogitScope: A Framework for Analyzing LLM Uncertainty Through Information Metrics [1.4864875802856898]
LogitScopeは、大規模言語モデル(LLM)の不確実性を分析するための軽量フレームワークである。
生成ステップ毎にエントロピーやバレントロピーなどのメトリクスを測定することで、LogitScopeはモデルの信頼性のパターンを明らかにする。
我々は、不確実性、モデルビヘイビア分析、生産監視を含む多様なアプリケーションにまたがるLogitScopeの有用性を実証する。
論文 参考訳(メタデータ) (2026-03-26T01:46:24Z) - Variance-Aware LLM Annotation for Strategy Research: Sources, Diagnostics, and a Protocol for Reliable Measurement [0.3228822469249803]
大規模言語モデル(LLM)は、戦略研究者が大規模にテキストを注釈付けするための強力なツールを提供する。
しかし、LCM生成ラベルを決定論的見落としとして扱うことは、かなり不安定である。
我々は,構成仕様,インターフェース効果,モデル嗜好,出力抽出,システムレベルの集約という,5つのばらつき源を診断する。
論文 参考訳(メタデータ) (2025-12-02T18:02:20Z) - Efficient semantic uncertainty quantification in language models via diversity-steered sampling [46.23327887393273]
本稿では,デコード中に意味的に冗長な出力を回避できるダイバーシティステアリング・サンプリング手法を提案する。
主要なアイデアは、モデルの提案分布に連続的な意味-類似性ペナルティを注入することである。
モジュラーであり、ベースLSMへの勾配アクセスを必要としないため、このフレームワークは不確実性評価のためのドロップインエンハンスメントとして機能することを約束している。
論文 参考訳(メタデータ) (2025-10-24T10:06:21Z) - Mapping from Meaning: Addressing the Miscalibration of Prompt-Sensitive Language Models [39.05891782057066]
大規模言語モデル(LLM)における即時感度について検討する。
パラフレージング摂動による「意味概念空間のサンプリング」は、精度を損なうことなく不確実性校正を改善することを示す。
論文 参考訳(メタデータ) (2025-10-19T22:28:57Z) - Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification [9.397157329808254]
MUSEは、大規模言語モデルのよく校正されたサブセットを特定し、集約するための単純な情報理論手法である。
二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文 参考訳(メタデータ) (2025-07-09T19:13:25Z) - Statistical Hypothesis Testing for Auditing Robustness in Language Models [49.1574468325115]
本稿では,摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を紹介する。
モンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替出力分布を構築する。
反応変化の定量化、正/偽の正率の測定、参照モデルとの整合性の評価について述べる。
論文 参考訳(メタデータ) (2025-06-09T17:11:07Z) - Understanding challenges to the interpretation of disaggregated evaluations of algorithmic fairness [49.35494016290887]
関係する人口を表わすが、実世界の格差を反映するデータである場合、サブグループ間での平等なパフォーマンスは、信頼できない公平さの尺度であることを示す。
本フレームワークでは, 因果関係の明示的な仮定と分析を相補して, 相反や分布変化の制御を提案する。
論文 参考訳(メタデータ) (2025-06-04T17:40:31Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。