論文の概要: Lookahead Path Likelihood Optimization for Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2602.03496v1
- Date: Tue, 03 Feb 2026 13:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.46206
- Title: Lookahead Path Likelihood Optimization for Diffusion LLMs
- Title(参考訳): 拡散LDMのルックアヘッドパス類似最適化
- Authors: Xuejie Liu, Yap Vit Chun, Yitao Liang, Anji Liu,
- Abstract要約: 本稿では,下流の精度と強く相関する軌道条件付き目標であるパスログ類似度(Path LL)を導入し,非マスキング経路の原理的選択を可能にする。
推定時刻におけるPath LLの最適化のために,部分復号軌道の予測を行う効率の良い値推定器POKEを提案する。
次に、このルックアヘッド信号をモンテカルロをベースとした探索フレームワークであるPOKE-SMCに統合し、最適なアンマスクパスを動的に識別する。
- 参考スコア(独自算出の注目度): 31.01208893976334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Large Language Models (dLLMs) support arbitrary-order generation, yet their inference performance critically depends on the unmasking order. Existing strategies rely on heuristics that greedily optimize local confidence, offering limited guidance for identifying unmasking paths that are globally consistent and accurate. To bridge this gap, we introduce path log-likelihood (Path LL), a trajectory-conditioned objective that strongly correlates with downstream accuracy and enables principled selection of unmasking paths. To optimize Path LL at inference time, we propose POKE, an efficient value estimator that predicts the expected future Path LL of a partial decoding trajectory. We then integrate this lookahead signal into POKE-SMC, a Sequential Monte Carlo-based search framework for dynamically identifying optimal unmasking paths. Extensive experiments across 6 reasoning tasks show that POKE-SMC consistently improves accuracy, achieving 2%--3% average gains over strong decoding-time scaling baselines at comparable inference overhead on LLaDA models and advancing the accuracy--compute Pareto frontier.
- Abstract(参考訳): 拡散大言語モデル (dLLM) は任意の順序生成をサポートするが、その推論性能は不整合順序に依存している。
既存の戦略は、局所的な信頼を極端に最適化するヒューリスティックに頼っており、グローバルに一貫性があり正確であるアンマキングパスを特定するための限定的なガイダンスを提供している。
このギャップを埋めるために、下流の精度と強く相関する軌道条件の目標であるパスログ類似度(Path LL)を導入し、アンマキングパスの原理的選択を可能にする。
推定時刻におけるPath LLの最適化のために,部分復号軌道の予測を行う効率の良い値推定器POKEを提案する。
次に、このルックアヘッド信号をモンテカルロをベースとした探索フレームワークであるPOKE-SMCに統合し、最適なアンマスクパスを動的に識別する。
6つの推論タスクにわたる大規模な実験により、POKE-SMCは一貫して精度を向上し、2%--3%の平均ゲインを達成する。
関連論文リスト
- Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models [51.12873073612084]
Masked Diffusion Models (MDM) は、反復的にトークンをアンマキングすることで生成される言語モデルであるが、その性能はアンマキングの推測時間順序に依存する。
提案するLookUM(LookUM)は,これらの問題に対処し,サンプリングを可能な全注文に対して経路選択として再構成する。
LookUMはピーク性能を達成するために2~3つの経路しか必要とせず、極めて効率的な経路選択を示す。
論文 参考訳(メタデータ) (2025-11-04T02:37:37Z) - Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models [53.339700196282905]
大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。
本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-10-13T17:47:50Z) - DAMR: Efficient and Adaptive Context-Aware Knowledge Graph Question Answering with LLM-Guided MCTS [28.828541350757714]
本稿では,知識グラフ質問応答(KGQA)のための動的適応MCTSベースの推論(DAMR)を提案する。
DAMRは、MCTS(Monte Carlo Tree Search)と適応経路評価を統合し、コンテキスト対応のKGQAを実現する。
複数のKGQAベンチマークの実験では、DAMRはSOTA法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-01T15:38:21Z) - Rational Tuning of LLM Cascades via Probabilistic Modeling [0.9208007322096532]
大規模言語モデル(LLM)の連立性能分布の確率的モデルを提案する。
ベイズ最適化を用いた信頼しきい値の選択と比較すると、マルコフパラメトリックコプラモデルの方がエラーコストのトレードオフに有利である。
異なるLLMの誤差率間の相互作用に関する我々のフレームワークの帰納的仮定は、サンプル効率を高める。
論文 参考訳(メタデータ) (2025-01-16T07:58:33Z) - LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning [91.95362946266577]
経路計画はロボット工学と自律航法における基本的な科学的問題である。
A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。
本稿では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力とを相乗的に組み合わせた LLM ベースの経路計画法を提案する。
このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-06-20T01:24:30Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。