Fugu-MT 論文翻訳(概要): Free Lunch for Pass@$k$? Low Cost Diverse Sampling for Diffusion Language Models

論文の概要: Free Lunch for Pass@$k$? Low Cost Diverse Sampling for Diffusion Language Models

arxiv url: http://arxiv.org/abs/2603.04893v1
Date: Thu, 05 Mar 2026 07:35:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.118356
Title: Free Lunch for Pass@$k$? Low Cost Diverse Sampling for Diffusion Language Models
Title（参考訳）: Pass@$k$? 拡散言語モデルの低コスト逆サンプリング
Authors: Sean Lamont, Christian Walder, Paul Montague, Amir Dezfouli, Michael Norrish,
Abstract要約: 本稿では,拡散言語モデルにおける生成多様性を高めるための,無償で低コストな介入手法を提案する。提案手法は, 各サンプルが前回のサンプルの特徴空間から反発されるような, バッチ内の中間サンプルを逐次修正する。リトレーニングやビームサーチを必要とする従来の方法とは異なり、我々の戦略は無視できる計算オーバーヘッドを発生させる。
参考スコア（独自算出の注目度）: 17.37935640125399
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diverse outputs in text generation are necessary for effective exploration in complex reasoning tasks, such as code generation and mathematical problem solving. Such Pass@$k$ problems benefit from distinct candidates covering the solution space. However, traditional sampling approaches often waste computational resources on repetitive failure modes. While Diffusion Language Models have emerged as a competitive alternative to the prevailing Autoregressive paradigm, they remain susceptible to this redundancy, with independent samples frequently collapsing into similar modes. To address this, we propose a training free, low cost intervention to enhance generative diversity in Diffusion Language Models. Our approach modifies intermediate samples in a batch sequentially, where each sample is repelled from the feature space of previous samples, actively penalising redundancy. Unlike prior methods that require retraining or beam search, our strategy incurs negligible computational overhead, while ensuring that each sample contributes a unique perspective to the batch. We evaluate our method on the HumanEval and GSM8K benchmarks using the LLaDA-8B-Instruct model. Our results demonstrate significantly improved diversity and Pass@$k$ performance across various temperature settings. As a simple modification to the sampling process, our method offers an immediate, low-cost improvement for current and future Diffusion Language Models in tasks that benefit from diverse solution search. We make our code available at https://github.com/sean-lamont/odd.
Abstract（参考訳）: テキスト生成における様々な出力は、コード生成や数学的問題解決といった複雑な推論タスクを効果的に探索するために必要である。このようなPass@$k$問題は、ソリューション空間をカバーする異なる候補の恩恵を受ける。しかし、従来のサンプリング手法は繰り返し失敗モードで計算資源を浪費することが多い。拡散言語モデル(Diffusion Language Models)は、広く普及している自己回帰パラダイム(Autoregressive paradigm)の競合モデルとして登場したが、この冗長性の影響を受けやすいままであり、独立したサンプルはしばしば同様のモードに崩壊する。そこで本研究では,拡散言語モデルにおける生成多様性を高めるために,フリーで低コストな介入手法を提案する。提案手法は, 各サンプルが前回のサンプルの特徴空間から反発し, 冗長性を積極的に考慮し, バッチ内の中間サンプルを逐次修正する。リトレーニングやビームサーチを必要とする従来の方法とは異なり、我々の戦略は無視可能な計算オーバーヘッドを発生させ、各サンプルがバッチにユニークな視点を提供する。 LLaDA-8B-Instructモデルを用いてHumanEvalおよびGSM8Kベンチマークの評価を行った。その結果,各種温度設定における多様性とPass@k$の性能が著しく向上した。本手法は,サンプリングプロセスの簡易な修正として,多種多様な解探索の恩恵を受けるタスクにおいて,現在および将来の拡散言語モデルに対する即時かつ低コストな改善を提供する。コードはhttps://github.com/sean-lamont/odd.comで公開しています。

関連論文リスト

Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文参考訳（メタデータ） (2026-02-26T11:08:39Z)
Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文参考訳（メタデータ） (2025-07-11T08:00:47Z)
DiverseFlow: Sample-Efficient Diverse Mode Coverage in Flows [0.6138671548064355]
DiverseFlowは、フローモデルの多様性を改善するためのトレーニング不要のアプローチである。サンプル効率の多様性が望ましいタスクに対して,本手法の有効性を実証する。
論文参考訳（メタデータ） (2025-04-10T16:09:50Z)
Single-Step Consistent Diffusion Samplers [8.758218443992467]
既存のサンプリングアルゴリズムは通常、高品質なサンプルを作成するために多くの反復的なステップを必要とする。単一ステップで高忠実度サンプルを生成するために設計された新しいサンプルクラスである,一貫した拡散サンプリングを導入している。提案手法は,従来の拡散サンプリング装置で要求されるネットワーク評価の1%以下を用いて,高忠実度サンプルが得られることを示す。
論文参考訳（メタデータ） (2025-02-11T14:25:52Z)
Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。本手法は, 標準確率流モデルの再構成に基づく。実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文参考訳（メタデータ） (2024-03-25T17:58:22Z)
Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文参考訳（メタデータ） (2024-02-07T18:51:49Z)
Diffusion-Generative Multi-Fidelity Learning for Physical Simulation [24.723536390322582]
本研究では,微分方程式(SDE)に基づく拡散生成多忠実学習法を開発した。付加的な入力(時間変数や空間変数)を条件にすることで、我々のモデルは効率的に多次元の解列を学習し、予測することができる。
論文参考訳（メタデータ） (2023-11-09T18:59:05Z)
Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文参考訳（メタデータ） (2022-12-01T18:59:55Z)
Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models [65.52639709094963]
ビームサーチやガンベルトップkサンプリングのような手法は、ビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。本稿では,大言語モデルによって暗黙的に定義された算術符号書に従ってサンプリングを行うフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-18T22:19:41Z)
Diverse Human Motion Prediction via Gumbel-Softmax Sampling from an Auxiliary Space [34.83587750498361]
多様な人間の動き予測は、観測されたポーズのシーケンスから、複数の将来のポーズシーケンスを予測することを目的としている。従来のアプローチでは、通常、データの条件分布をモデル化するために深い生成ネットワークを使用し、その後、分布からランダムにサンプル結果を得る。不均衡なマルチモーダル分布から非常に多様な結果をサンプリングするための新しいサンプリング手法を提案する。
論文参考訳（メタデータ） (2022-07-15T09:03:57Z)
DLow: Diversifying Latent Flows for Diverse Human Motion Prediction [32.22704734791378]
本研究では,事前学習した深部生成モデルから多種多様なサンプル群を生成するために,新しいサンプリング手法であるDLow(Diversifying Latent Flows)を提案する。トレーニング中、DLowはサンプルの多様性を改善するために潜伏マッピングを最適化する目的として、サンプルよりも多様性を優先する。実験の結果,DLowはサンプルの多様性と精度で最先端のベースライン法より優れていることがわかった。
論文参考訳（メタデータ） (2020-03-18T17:58:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。