論文の概要: Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts
- arxiv url: http://arxiv.org/abs/2510.05040v1
- Date: Mon, 06 Oct 2025 17:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.011976
- Title: Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts
- Title(参考訳): 隠れ半自己回帰エキスパートによる拡散LDMの試験時間スケーリング
- Authors: Jihoon Lee, Hoyeon Moon, Kevin Zhai, Arun Kumar Chithanar, Anit Kumar Sahu, Soummya Kar, Chul Lee, Souradip Chakraborty, Amrit Singh Bedi,
- Abstract要約: 拡散に基づく大規模言語モデルは、半自己回帰的な専門家の混在を暗黙的に学習する。
固定された推論時間スケジュールにコミットすると、この潜伏したアンサンブルの活用に失敗してパフォーマンスが低下することを示す。
我々は、異種ブロックスケジュールにまたがってアンサンブルを行う、トレーニング不要な推論手法であるHEXを紹介する。
- 参考スコア(独自算出の注目度): 32.164728234520915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based large language models (dLLMs) are trained flexibly to model extreme dependence in the data distribution; however, how to best utilize this information at inference time remains an open problem. In this work, we uncover an interesting property of these models: dLLMs trained on textual data implicitly learn a mixture of semi-autoregressive experts, where different generation orders reveal different specialized behaviors. We show that committing to any single, fixed inference time schedule, a common practice, collapses performance by failing to leverage this latent ensemble. To address this, we introduce HEX (Hidden semiautoregressive EXperts for test-time scaling), a training-free inference method that ensembles across heterogeneous block schedules. By doing a majority vote over diverse block-sized generation paths, HEX robustly avoids failure modes associated with any single fixed schedule. On reasoning benchmarks such as GSM8K, it boosts accuracy by up to 3.56X (from 24.72% to 88.10%), outperforming top-K margin inference and specialized fine-tuned methods like GRPO, without additional training. HEX even yields significant gains on MATH benchmark from 16.40% to 40.00%, scientific reasoning on ARC-C from 54.18% to 87.80%, and TruthfulQA from 28.36% to 57.46%. Our results establish a new paradigm for test-time scaling in diffusion-based LLMs (dLLMs), revealing that the sequence in which masking is performed plays a critical role in determining performance during inference.
- Abstract(参考訳): 拡散に基づく大規模言語モデル(dLLM)は、データ分布の極端な依存をモデル化するために柔軟に訓練されるが、推論時にこの情報を最大限に活用する方法は未解決の問題である。
テキストデータに基づいて訓練されたdLLMは、異なる世代順が異なる特殊な振る舞いを示す半自己回帰的な専門家の混合を暗黙的に学習する。
単一の固定された推論時間スケジュールにコミットすることは、この潜伏したアンサンブルを活用できないことで、パフォーマンスを低下させることを示す。
そこで,HEX(Hidden semiautoregressive Experts for test-time Scaling)を導入する。
多様なブロックサイズの生成パスに対して多数決を行うことで、HEXは、単一の固定スケジュールに関連する障害モードを確実に回避する。
GSM8Kのような推論ベンチマークでは、精度を最大3.56倍(24.72%から88.10%まで)向上させ、上位Kマージンの推測やGRPOのような特殊な微調整の手法よりも優れている。
HEXはMATHベンチマークを16.40%から40.00%に、ARC-Cを54.18%から87.80%に、TrathfulQAを28.36%から57.46%に引き上げた。
本研究は,拡散型LLM(dLLMs)におけるテスト時間スケーリングのパラダイムを新たに確立し,マスキングを行うシーケンスが推論時の性能決定に重要な役割を担っていることを明らかにした。
関連論文リスト
- MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models [28.79185891706149]
拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
論文 参考訳(メタデータ) (2025-08-18T17:58:13Z) - LookAlike: Consistent Distractor Generation in Math MCQs [42.19039301965107]
そこで我々はLookAlikeを提案する。LookAlikeは優先最適化によるエラー・ディトラクタの整合性を改善する手法である。
主なイノベーションは、(a)モデル不整合から合成選好ペアをマイニングすること、(b)教師付き微調整の交互化である。
LookAlike は LLM-as-a-judge 評価の下で、イントラクタ生成の精度51.6%、エラー生成の精度57.2% を達成する。
論文 参考訳(メタデータ) (2025-05-03T19:18:06Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Distributionally Robust Multiclass Classification and Applications in
Deep Image Classifiers [3.179831861897336]
マルチクラスロジスティック回帰(MLR)のための分布ロバスト最適化(DRO)の定式化を開発する。
本研究では,新しいランダムトレーニング手法を採用することにより,試験誤差率を最大83.5%,損失を最大91.3%削減することを示した。
論文 参考訳(メタデータ) (2021-09-27T02:58:19Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。