論文の概要: Do Stop Me Now: Detecting Boilerplate Responses with a Single Iteration
- arxiv url: http://arxiv.org/abs/2510.22679v1
- Date: Sun, 26 Oct 2025 13:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.322341
- Title: Do Stop Me Now: Detecting Boilerplate Responses with a Single Iteration
- Title(参考訳): Do Stop Me Now:シングルイテレーションでボイルアルプ酸反応を検出する
- Authors: Yuval Kainan, Shaked Zychlinski,
- Abstract要約: 大規模言語モデル(LLM)は、しばしばボイラープレート応答を生成する重要な計算資源を消費する。
本稿では,単一生成段階の後に応答を検出するための簡易かつ高効率な手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often expend significant computational resources generating boilerplate responses, such as refusals, simple acknowledgements and casual greetings, which adds unnecessary cost and latency. To address this inefficiency, we propose a simple yet highly effective method for detecting such responses after only a single generation step. We demonstrate that the log-probability distribution of the first generated token serves as a powerful signal for classifying the nature of the entire subsequent response. Our experiments, conducted across a diverse range of small, large, and reasoning-specialized models, show that the first-token log-probability vectors form distinctly separable clusters for different response types. Using a lightweight k-NN classifier, we achieve high accuracy in predicting whether a response will be a substantive answer or a form of boilerplate response, including user-specified refusals. The primary implication is a practical, computationally trivial technique, optimizing LLM inference by enabling early termination or redirection to a smaller model, thereby yielding significant savings in computational cost. This work presents a direct path toward more efficient and sustainable LLM deployment.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、しばしば、拒否、単純な承認、カジュアルな挨拶などのボイラープレート応答を生成する重要な計算資源を消費し、不要なコストとレイテンシを増大させる。
この非効率性に対処するため,単一生成ステップの後に応答を検出できる簡易かつ高効率な手法を提案する。
生成したトークンの対数確率分布が,その後の応答の性質を分類する強力な信号であることを示す。
実験は, 多様な小, 大規模, 推論特化モデルで実施され, 対数確率ベクトルは, 異なる応答型に対して, 明確に分離可能なクラスタを形成することを示す。
軽量なk-NN分類器を用いて,応答が実質的な応答か,あるいはユーザ指定の拒否を含む定型応答の形式かを予測する。
第一の含意は、実用的で計算上の自明な手法であり、より小さなモデルへの早期終了やリダイレクトを可能にしてLCM推論を最適化し、計算コストの大幅な削減をもたらす。
この研究は、より効率的で持続可能なLLMデプロイメントへの直接的な道を示す。
関連論文リスト
- LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling [38.27469349005585]
テストタイムスケーリングは、大規模言語モデルの推論能力を高めるための強力なパラダイムである。
テストタイムのスケーリングは、冗長かつ反復的な推論トレースの生成によって本質的に非効率である。
テスト時間スケーリングを高速化する投機的復号法を評価するために設計された最初の包括的なベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-08-30T01:54:55Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Representation Consistency for Accurate and Coherent LLM Answer Aggregation [20.494987341489573]
表現整合性(英: representation consistency, RC)は、大規模言語モデルの複数の候補応答から引き出された回答を集約するテスト時間スケーリング手法である。
RCは、各応答集合における各応答の発生数を考慮することにより、回答集約を強化する。
キャッシュされたアクティベーションと軽量な類似性計算のみを使用し,追加のモデルクエリを必要としない。
論文 参考訳(メタデータ) (2025-06-18T05:07:47Z) - LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [39.61818305829112]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。
PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。
我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文 参考訳(メタデータ) (2025-05-25T15:17:57Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。