論文の概要: Self-Reflective Generation at Test Time
- arxiv url: http://arxiv.org/abs/2510.02919v1
- Date: Fri, 03 Oct 2025 11:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.370431
- Title: Self-Reflective Generation at Test Time
- Title(参考訳): テスト時間における自己反射生成
- Authors: Jian Mu, Qixin Zhang, Zhiyong Wang, Menglin Yang, Shuang Qiu, Chengwei Qin, Zhongxiang Dai, Yao Shu,
- Abstract要約: 大規模言語モデル(LLM)は、長いチェーン・オブ・シークレットを通じて複雑な推論タスクを徐々に解決する。
既存の自己修正は、完全なドラフトに対して修正を行うか、高価なトレーニングを通じて自己修正を学ぶ。
テスト時間における自己回帰生成(SRGen)は、不確実な点で生成する前に反映する軽量なテスト時間フレームワークである。
- 参考スコア(独自算出の注目度): 42.02273611421918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) increasingly solve complex reasoning tasks via long chain-of-thought, but their forward-only autoregressive generation process is fragile; early token errors can cascade, which creates a clear need for self-reflection mechanisms. However, existing self-reflection either performs revisions over full drafts or learns self-correction via expensive training, both fundamentally reactive and inefficient. To address this, we propose Self-Reflective Generation at Test Time (SRGen), a lightweight test-time framework that reflects before generating at uncertain points. During token generation, SRGen utilizes dynamic entropy thresholding to identify high-uncertainty tokens. For each identified token, it trains a specific corrective vector, which fully exploits the already generated context for a self-reflective generation to correct the token probability distribution. By retrospectively analyzing the partial output, this self-reflection enables more trustworthy decisions, thereby significantly reducing the probability of errors at highly uncertain points. Evaluated on challenging mathematical reasoning benchmarks and a diverse set of LLMs, SRGen can consistently strengthen model reasoning: improvements in single-pass quality also translate into stronger self-consistency voting. Especially, on AIME2024 with DeepSeek-R1-Distill-Qwen-7B, SRGen yields absolute improvements of +12.0% on Pass@1 and +13.3% on Cons@5. Moreover, our findings position SRGen as a plug-and-play method that integrates reflection into the generation process for reliable LLM reasoning, achieving consistent gains with bounded overhead and broad composability with other training-time (e.g., RLHF) and test-time (e.g., SLOT) techniques.
- Abstract(参考訳): 大きな言語モデル(LLM)は、長いチェーン・オブ・シークレットを通じて複雑な推論タスクを解決する傾向にあるが、前方のみの自己回帰生成プロセスは脆弱である。
しかし、既存の自己反映は、完全なドラフトに対して修正を行うか、高価なトレーニングを通じて自己補正を学ぶか、基本的には反応性と非効率の両方を学習する。
これを解決するために、不確実なポイントで生成する前に反映する軽量なテスト時間フレームワーク、SRGen(Self-Reflective Generation at Test Time)を提案する。
トークン生成中、SRGenはダイナミックエントロピーしきい値を用いて高い不確実性トークンを識別する。
識別されたトークンごとに特定の補正ベクトルをトレーニングし、トークンの確率分布を補正するために自己反射生成のために既に生成されたコンテキストを完全に活用する。
部分出力を振り返って分析することで、この自己回帰はより信頼性の高い決定を可能にし、非常に不確実な点におけるエラーの確率を著しく低減する。
SRGenは、挑戦的な数学的推論ベンチマークと多種多様なLCMに基づいて、モデル推論を一貫して強化することができる。
特に、DeepSeek-R1-Distill-Qwen-7BのAIME2024では、SRGenはPass@1では+12.0%、Cons@5では+13.3%の絶対的な改善をもたらす。
さらに、SRGenは、信頼性の高いLCM推論のための生成プロセスにリフレクションを組み込んで、他のトレーニング時間(例えば、RLHF)やテスト時間(例えば、SLOT)技術とのバウンダリと幅広い構成性を備えた一貫したゲインを実現するためのプラグアンドプレイ手法として位置づけた。
関連論文リスト
- PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier [18.771754895027616]
Policy as Generative Verifier (PAG) は、政策と検証役を交互に交互に行うことで、大規模言語モデルに自己修正の権限を与えるフレームワークである。
モデル崩壊を緩和し、推論能力と検証能力の両方を共同で強化する。
論文 参考訳(メタデータ) (2025-06-12T06:59:35Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:21:16Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。