論文の概要: From Noise to Diversity: Random Embedding Injection in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.11936v1
- Date: Tue, 12 May 2026 10:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.805105
- Title: From Noise to Diversity: Random Embedding Injection in LLM Reasoning
- Title(参考訳): 騒音から多様性へ:LLM推論におけるランダム埋め込み注入
- Authors: Heejun Kim, Seungpil Lee, Jewon Yeom, Jaewon Sok, Seonghyeon Park, Jeongjae Park, Taesup Kim, Sundong Kim,
- Abstract要約: ランダムソフト・プロンプト (RSP) について検討し, 学習段階を完全に落とし, ランダムな埋め込みベクトル列を入力に付加する。
RSPは、いくつかの設定で数学推論ベンチマークで最適化されたソフトプロンプトに匹敵する精度に達する。
推定 RSP が初期トークンの多様性を上昇させ、温度サンプリングと組み合わせることで、Pass@N を拡大することにより、N のうち少なくとも 1 つが正しいことを示す。
- 参考スコア(独自算出の注目度): 10.961329691434685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent soft prompt research has tried to improve reasoning by inserting trained vectors into LLM inputs, yet whether the gain comes from the learned content or from the act of injection itself has not been carefully separated. We study Random Soft Prompts (RSPs), which drop the training step entirely and append a freshly drawn sequence of random embedding vectors to the input. Each RSP vector is sampled from an isotropic Gaussian fitted to the entrywise mean and variance of the pretrained embedding table; the sequence carries no learned content, and yet reaches accuracy comparable to optimized soft prompts on math reasoning benchmarks in several settings. The mechanism unfolds in two stages: because attention has to absorb a never-seen-before random position, the distribution over the first few generated tokens flattens and reasoning trajectories branch, and as generation continues this influence dilutes naturally so the response commits to a single completion. We show that during inference RSPs lift early-stage token diversity and, combined with temperature sampling, widen Pass@N, the probability that at least one out of N attempts is correct. Beyond inference, we carry the same effect into DAPO training and demonstrate practical gains. Our contributions are: (i) RSP isolates the simplest form of soft prompt -- training-free, freshly resampled -- providing a unified lens for the structural effect of injection that variants otherwise differing in training and form all share; (ii) a theoretical and empirical validation of the underlying mechanism; and (iii) an extension from inference to training.
- Abstract(参考訳): 近年のソフトプロンプト研究は、学習したベクトルをLSM入力に挿入することで推論を改善しようとしているが、学習内容から得られるのか、注射行為自体から得られるのかは慎重に分離されていない。
ランダムソフト・プロンプト (RSP) について検討し, 学習段階を完全に落とし, ランダムな埋め込みベクトル列を入力に付加する。
各RSPベクトルは、事前訓練された埋め込みテーブルの進入平均と分散に適合する等方的ガウス平均からサンプリングされる。
この機構は2つの段階に展開される: 注意は目に見えないランダムな位置を吸収しなければならないため、最初の数個の生成したトークンの分布は平坦になり、推論軌跡が分岐し、生成が続くと、この影響は自然に希薄になり、応答は1つの完了にコミットする。
推定 RSP が初期トークンの多様性を上昇させ、温度サンプリングと組み合わせることで、Pass@N を拡大することにより、N のうち少なくとも 1 つが正しいことを示す。
推論以外にも、DAPOトレーニングにも同様の効果があり、実用的な成果が示されています。
私たちの貢献は次のとおりです。
(i)RSPは、最も単純なソフトプロンプト -- トレーニング不要で、新しく再サンプリングされた -- を分離し、訓練において他の変種と異なり、すべての共有を形成する射出の構造的効果のための統一レンズを提供する。
二 基礎となる機構の理論的かつ実証的な検証
三 推論から訓練までの拡張
関連論文リスト
- Speech Enhancement Based on Drifting Models [2.6958419576949146]
ドリフトモデル(DriftSE)に基づく音声強調手法を提案する。
DriftSEは平衡問題としてデノイングを定式化する新しい生成フレームワークである。
VoiceBank-DEMANDの実験では、DriftSEは単一のステップで高忠実性向上を実現する。
論文 参考訳(メタデータ) (2026-04-27T09:00:51Z) - Refinement Provenance Inference: Detecting LLM-Refined Training Prompts from Model Behavior [58.751981587234916]
本稿では,Refinement Provenance Inference (RPI)監査タスクをRefinement Provenance Inference (RPI)として定式化する。
本稿では,ロジットレベルの信号で教師が強制する可能性機能を融合させるロジットベースのフレームワークであるReProを提案する。
トレーニング中、ReProはシャドウファインチューニングを通じて転送可能な表現を学び、訓練データアクセスなしで、見えない犠牲者の証明を推測するために軽量のリニアヘッドを使用する。
論文 参考訳(メタデータ) (2026-01-05T10:16:41Z) - Scaling Adversarial Training via Data Selection [0.0]
本稿では,各ミニバッチにおける臨界サンプルのサブセットのみを摂動するemphSelective Adversa Trainingを提案する。
MNIST と CIFAR-10 の実験により,提案手法は PGD の完全対向訓練に匹敵する,あるいはそれ以上の堅牢性を達成できることが示された。
論文 参考訳(メタデータ) (2025-12-26T15:50:33Z) - From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers [67.02076505996284]
本研究では, 事前学習したデータ分布の選択が, 浅層変圧器を一方の行動に向ける方法について検討する。
その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
論文 参考訳(メタデータ) (2025-12-21T08:10:26Z) - In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning [51.56484100374058]
本稿では,ICLリスクをベイズギャップとポストリアバリアンスの2つのコンポーネントに分割する基本的リスク分解を導入する。
一様アテンション変換器の場合、このギャップの非漸近上界を導出し、事前学習プロンプトの数への依存を明確にする。
後方変動は本質的なタスクの不確実性を表すモデルに依存しないリスクである。
論文 参考訳(メタデータ) (2025-10-13T03:42:31Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Transductive conformal inference with adaptive scores [3.591224588041813]
トランスダクティブな設定では、テストのサンプルとして$m$の新たなポイントが決定されます。
本研究はP'olya urnモデルに従い, 実験分布関数の濃度不等式を確立することを目的とする。
本研究では,2つの機械学習タスクに対して一様かつ不確率な保証を行うことにより,これらの理論的結果の有用性を示す。
論文 参考訳(メタデータ) (2023-10-27T12:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。