論文の概要: BenchOverflow: Measuring Overflow in Large Language Models via Plain-Text Prompts
- arxiv url: http://arxiv.org/abs/2601.08490v1
- Date: Tue, 13 Jan 2026 12:22:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.189594
- Title: BenchOverflow: Measuring Overflow in Large Language Models via Plain-Text Prompts
- Title(参考訳): BenchOverflow: プレーンテキストプロンプトによる大規模言語モデルのオーバーフロー測定
- Authors: Erin Feiglin, Nir Hutnik, Raz Lapid,
- Abstract要約: 本研究では,大言語モデル (LLM) の失敗モードについて検討する。
オーバーフローは通常のインタラクション設定で発生し、サービス提供コスト、レイテンシ、ユーザ間のパフォーマンス低下につながる可能性がある。
我々は、9つのプレーンテキストプロンプト戦略のモデルに依存しないベンチマークであるBenchOverflowを紹介した。
- 参考スコア(独自算出の注目度): 0.16058099298620424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate a failure mode of large language models (LLMs) in which plain-text prompts elicit excessive outputs, a phenomenon we term Overflow. Unlike jailbreaks or prompt injection, Overflow arises under ordinary interaction settings and can lead to elevated serving cost, latency, and cross-user performance degradation, particularly when scaled across many requests. Beyond usability, the stakes are economic and environmental: unnecessary tokens increase per-request cost and energy consumption, compounding into substantial operational spend and carbon footprint at scale. Moreover, Overflow represents a practical vector for compute amplification and service degradation in shared environments. We introduce BenchOverflow, a model-agnostic benchmark of nine plain-text prompting strategies that amplify output volume without adversarial suffixes or policy circumvention. Using a standardized protocol with a fixed budget of 5000 new tokens, we evaluate nine open- and closed-source models and observe pronounced rightward shifts and heavy tails in length distributions. Cap-saturation rates (CSR@1k/3k/5k) and empirical cumulative distribution functions (ECDFs) quantify tail risk; within-prompt variance and cross-model correlations show that Overflow is broadly reproducible yet heterogeneous across families and attack vectors. A lightweight mitigation-a fixed conciseness reminder-attenuates right tails and lowers CSR for all strategies across the majority of models. Our findings position length control as a measurable reliability, cost, and sustainability concern rather than a stylistic quirk. By enabling standardized comparison of length-control robustness across models, BenchOverflow provides a practical basis for selecting deployments that minimize resource waste and operating expense, and for evaluating defenses that curb compute amplification without eroding task performance.
- Abstract(参考訳): 本稿では,大言語モデル (LLM) の失敗モードについて検討する。
ジェイルブレイクやプロンプトインジェクションとは異なり、オーバーフローは通常のインタラクション設定下で発生し、特に多くの要求にまたがってスケールする場合に、サービスコスト、レイテンシ、ユーザ間のパフォーマンス低下につながる可能性がある。
不要なトークンは要求毎のコストとエネルギー消費を増大させ、実質的な運用費と大規模な炭素フットプリントに配合する。
さらに、Overflowは共有環境における計算増幅とサービス劣化の実用的なベクトルである。
そこで我々は,9つのプレーンテキストプロンプト戦略のモデルに依存しないベンチマークであるBenchOverflowを紹介した。
5000の新しいトークンを固定した標準化されたプロトコルを用いて,9つのオープンソースモデルとクローズドソースモデルを評価し,長さ分布の顕著な右シフトと重テールを観察する。
カプセル飽和率 (CSR@1k/3k/5k) と経験的累積分布関数 (ECDFs) はテールリスクを定量化する。
軽量な緩和 - 固定簡潔さは右尾部を減らし、ほとんどのモデルで全ての戦略でCSRを低下させる。
本研究は,スタイリスティック・クォークよりも信頼性,コスト,持続可能性に関する指標として,長さ制御を位置づけた。
モデル間の長さ制御ロバスト性の比較を標準化することにより、BenchOverflowはリソースの無駄や運用コストを最小限に抑えるデプロイを選択し、タスクパフォーマンスを損なうことなく計算増幅を抑制するディフェンスを評価するための実践的な基盤を提供する。
関連論文リスト
- Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions [50.1404916337174]
大規模言語モデル(LLM)における母国語の確率的サンプリングの大規模,統計的に活用された最初の監査について述べる。
バッチ生成は, ほぼ完全に崩壊する一方, 中央値のパスレートが13%であり, 統計的妥当性はわずかであることがわかった。
現在のLCMには機能的な内部サンプルが欠如しており、統計的保証を必要とするアプリケーションに外部ツールを使う必要があると結論付けている。
論文 参考訳(メタデータ) (2026-01-08T22:33:12Z) - Scalable Offline Model-Based RL with Action Chunks [60.80151356018376]
モデルに基づく強化学習が、オフラインRLにおける複雑で長期のタスクに対処するためのスケーラブルなレシピを提供するかどうかを検討する。
我々はこのレシピを textbfModel-based RL with Action Chunks (MAC) と呼ぶ。
MAC はオフラインモデルベース RL アルゴリズムの中で,特に長期的タスクにおいて,最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-12-08T23:26:29Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - Informed Routing in LLMs: Smarter Token-Level Computation for Faster Inference [7.690958366125321]
本稿では,これらの問題に積極的に対処する新しいパラダイムであるインフォメーションルーティングを紹介する。
我々は、ルーティング決定を行う前に、ユニットの出力を推定する小さな予測モジュールである軽量特徴予測器(LFF)を提案する。
言語モデリングと推論タスクの両方の実験は、情報ルーティングが最先端の効率と性能のトレードオフを達成することを示す。
論文 参考訳(メタデータ) (2025-10-10T09:59:36Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Contextual Linear Optimization with Partial Feedback [35.38485630117593]
本研究では,異なるタイプのフィードバックを持つ文脈線形最適化(CLO)のためのオフライン学習アルゴリズムのクラスを提案する。
我々は,IERMに対して,不特定モデルクラスとフレキシブルな推定方法の選択を可能にする,新しい高速遅延境界を提供する。
論文 参考訳(メタデータ) (2024-05-26T13:27:27Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Linear Stochastic Bandits over a Bit-Constrained Channel [37.01818450308119]
我々は,ビット制約チャネル上に線形バンドレットの新たな定式化を導入する。
サーバの目標は、未知のモデルパラメータの推定値に基づいてアクションを取ることで、累積的後悔を最小限に抑えることである。
未知のモデルが$d$-dimensionalである場合、チャネル容量は$O(d)$ bits suffices で順序最適後悔を実現する。
論文 参考訳(メタデータ) (2022-03-02T15:54:03Z) - A Predictive Autoscaler for Elastic Batch Jobs [8.354712625979776]
Deep Learning、HPC、Sparkといった大規模なバッチジョブは、従来のオンラインサービスよりもはるかに多くの計算リソースとコストを必要とします。
顧客とオーバプロビジョンインスタンスに対して,柔軟なインターフェースを提供するための予測オートスケーラを提案する。
論文 参考訳(メタデータ) (2020-10-10T17:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。