Fugu-MT 論文翻訳(概要): Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

論文の概要: Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

arxiv url: http://arxiv.org/abs/2603.02760v1
Date: Tue, 03 Mar 2026 08:58:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.721821
Title: Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration
Title（参考訳）: 系列再生による拡散言語モデルの効率的な自己評価
Authors: Linhao Zhong, Linyu Wu, Wen Wang, Yuling Xi, Chenchen Jing, Jiaheng Zhang, Hao Chen, Chunhua Shen,
Abstract要約: 拡散大言語モデル (dLLMs) は多様性、制御可能性、並列性を高める能力において大きな注目を集めている。我々は,dLLMの簡易かつ効果的な自己評価信頼度定量化法であるDiSEを提案する。
参考スコア（独自算出の注目度）: 48.19579266939883
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion large language models (dLLMs) have recently attracted significant attention for their ability to enhance diversity, controllability, and parallelism. However, their non-sequential, bidirectionally masked generation makes quality assessment difficult, underscoring the need for effective self-evaluation. In this work, we propose DiSE, a simple yet effective self-evaluation confidence quantification method for dLLMs. DiSE quantifies confidence by computing the probability of regenerating the tokens in the entire generated sequence, given the full context. This method enables more efficient and reliable quality assessment by leveraging token regeneration probabilities, facilitating both likelihood estimation and robust uncertainty quantification. Building upon DiSE, we further introduce a flexible-length generation framework, which adaptively controls the sequence length based on the model's self-assessment of its own output. We analyze and validate the feasibility of DiSE from the perspective of dLLM generalization, and empirically demonstrate that DiSE is positively correlated with both semantic coherence and answer accuracy. Extensive experiments on likelihood evaluation, uncertainty quantification, and flexible-length generation further confirm the effectiveness of the proposed DiSE.
Abstract（参考訳）: 拡散大言語モデル(dLLM)は、最近、多様性、制御可能性、並列性を高める能力において、大きな注目を集めている。しかし、その非逐次的で双方向のマスク付き生成は品質評価を困難にし、効果的な自己評価の必要性を浮き彫りにしている。本研究では,dLLMに対する簡易かつ効果的な自己評価信頼度定量化手法であるDiSEを提案する。 DiSEは、完全なコンテキストが与えられたとき、生成されたシーケンス全体のトークンを再生する確率を計算することによって、信頼度を定量化する。この方法は、トークン再生確率を活用することにより、より効率的で信頼性の高い品質評価を可能にし、確率推定とロバストな不確実性定量化の両方を容易にする。さらに,DiSEをベースとしたフレキシブル長生成フレームワークを導入し,モデルの自己評価に基づくシーケンス長を適応的に制御する。我々は,DLLM一般化の観点からDiSEの有効性を分析し,その妥当性を実証し,意味的コヒーレンスと解答精度の両方に正の相関があることを実証した。可能性評価、不確実性定量化、フレキシブル長生成に関する広範囲な実験により、提案したDiSEの有効性がさらに確認された。

関連論文リスト

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation [22.921677603408188]
LVLM(Large Vision-Language Models)はしばしば幻覚を呈し、現実世界のアプリケーションに安全な配置を制限している。 LVLM自己評価のための視覚対応不確実性定量化フレームワークVAUQを提案する。 VAUQは、モデルの出力が視覚的証拠に依存するかを明確に測定する。
論文参考訳（メタデータ） (2026-02-24T16:11:14Z)
Trust in One Round: Confidence Estimation for Large Language Models via Structural Signals [13.89434979851652]
大規模言語モデル(LLM)は、エラーが社会的、科学的、安全コストの高い領域にますます展開されている。本稿では,出力の正確性を予測する単一パスモデル依存フレームワークであるStructure Confidenceを提案する。
論文参考訳（メタデータ） (2026-02-01T02:35:59Z)
Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文参考訳（メタデータ） (2025-08-16T13:29:35Z)
A Context-Aware Dual-Metric Framework for Confidence Estimation in Large Language Models [6.62851757612838]
大規模言語モデル(LLM)に対する現在の信頼度推定法は,応答と文脈情報の関連性を無視する。本稿では,2つの新しい指標を用いた信頼度推定のためのコンテキスト忠実度と一貫性を統合したCRUXを提案する。 3つのベンチマークデータセットに対する実験は、CRUXの有効性を示し、既存のベースラインよりも高いAUROCを達成した。
論文参考訳（メタデータ） (2025-08-01T12:58:34Z)
Enhancing Uncertainty Estimation and Interpretability via Bayesian Non-negative Decision Layer [55.66973223528494]
本研究では, ディープニューラルネットワークを条件付きベイズ非負因子分析として再構成したベイズ非負決定層(BNDL)を開発した。 BNDLは複雑な依存関係をモデル化し、堅牢な不確実性推定を提供する。また,BNDLが効果的に不整合学習を達成できるという理論的保証も提供する。
論文参考訳（メタデータ） (2025-05-28T10:23:34Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,大規模言語モデルによって生成された複数の出力の自己整合性に基づいて,応答正当性を評価するための補助学習モデルを提案する。提案手法は,複数応答間の一致を表現するために整合性グラフを構築し,グラフニューラルネットワーク(GNN)を用いて各応答の正しさを推定する。
論文参考訳（メタデータ） (2024-11-03T20:36:44Z)
Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文参考訳（メタデータ） (2024-08-20T09:42:26Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。