Fugu-MT 論文翻訳(概要): Text Generation Beyond Discrete Token Sampling

論文の概要: Text Generation Beyond Discrete Token Sampling

arxiv url: http://arxiv.org/abs/2505.14827v1
Date: Tue, 20 May 2025 18:41:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:58.712637
Title: Text Generation Beyond Discrete Token Sampling
Title（参考訳）: 離散的なトークンサンプリングを超えたテキスト生成
Authors: Yufan Zhuang, Liyuan Liu, Chandan Singh, Jingbo Shang, Jianfeng Gao,
Abstract要約: 入力の混合(Mixture of Inputs, MoI)は、自動回帰生成のためのトレーニング不要な方法である。 MoIはQwQ-32B、Nemotron-Super-49B、Gemma-3-27B、DAPO-Qwen-32Bを含む複数のモデルのパフォーマンスを継続的に改善している。
参考スコア（独自算出の注目度）: 75.96920867382859
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In standard autoregressive generation, an LLM predicts the next-token distribution, samples a discrete token, and then discards the distribution, passing only the sampled token as new input. To preserve this distribution's rich information, we propose Mixture of Inputs (MoI), a training-free method for autoregressive generation. After generating a token following the standard paradigm, we construct a new input that blends the generated discrete token with the previously discarded token distribution. Specifically, we employ a Bayesian estimation method that treats the token distribution as the prior, the sampled token as the observation, and replaces the conventional one-hot vector with the continuous posterior expectation as the new model input. MoI allows the model to maintain a richer internal representation throughout the generation process, resulting in improved text quality and reasoning capabilities. On mathematical reasoning, code generation, and PhD-level QA tasks, MoI consistently improves performance across multiple models including QwQ-32B, Nemotron-Super-49B, Gemma-3-27B, and DAPO-Qwen-32B, with no additional training and negligible computational overhead.
Abstract（参考訳）: 標準的な自己回帰生成では、LCMは次のトーケン分布を予測し、離散トークンをサンプリングし、次にその分布を破棄し、サンプルトークンのみを新しい入力として渡す。この分布の豊富な情報を保存するために,自己回帰生成のためのトレーニング不要なMixture of Inputs (MoI)を提案する。標準パラダイムに従ってトークンを生成した後、生成された離散トークンと以前に捨てられたトークン分布をブレンドする新しい入力を構築する。具体的には、トークン分布を先行として扱うベイズ推定法、サンプルトークンを観察として、従来の1ホットベクトルを新しいモデル入力として後続予測に置き換える。 MoIにより、生成プロセス全体を通してよりリッチな内部表現を維持することができ、結果としてテキストの品質と推論能力が改善される。数学的推論、コード生成、PhDレベルのQAタスクにおいて、MoIはQwQ-32B、Nemotron-Super-49B、Gemma-3-27B、DAPO-Qwen-32Bを含む複数のモデルのパフォーマンスを継続的に改善し、追加のトレーニングや無視可能な計算オーバーヘッドを伴わない。

関連論文リスト

Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文参考訳（メタデータ） (2025-04-29T06:33:13Z)
Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-04T17:46:51Z)
Distributional Diffusion Models with Scoring Rules [83.38210785728994]
拡散モデルは高品質な合成データを生成する。高品質な出力を生成するには、多くの離散化ステップが必要です。クリーンデータサンプルの後部エム分布を学習し,サンプル生成を実現することを提案する。
論文参考訳（メタデータ） (2025-02-04T16:59:03Z)
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文参考訳（メタデータ） (2024-07-01T15:43:25Z)
From Self-Attention to Markov Models: Unveiling the Dynamics of Generative Transformers [41.82477691012942]
本研究では,一連のプロンプトと関連する出力データから1層自己注意モデルを学習する。まず、自己注意機構とマルコフモデルとの正確なマッピングを確立する。我々は,自己注意による生成過程が崩壊し,トークンの限られた部分集合をサンプリングする,興味深い勝者とあらゆる現象を特徴付ける。
論文参考訳（メタデータ） (2024-02-21T03:51:34Z)
Energy-bounded Learning for Robust Models of Code [16.592638312365164]
プログラミングでは、コード表現の学習には、コード分類、コード検索、コメント生成、バグ予測など、さまざまなアプリケーションがある。本稿では,ソースコードモデルのトレーニングプロセスにこれらのアウト・オブ・ディストリビューション・サンプルを組み込むため,エネルギー境界学習目標関数を用いて,イン・ディストリビューション・サンプルにより高いスコアを割り当て,アウト・オブ・ディストリビューション・サンプルに低いスコアを割り当てることを提案する。
論文参考訳（メタデータ） (2021-12-20T06:28:56Z)
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。代用トークン検出という,より効率的な事前学習タスクを提案する。
論文参考訳（メタデータ） (2020-03-23T21:17:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。