論文の概要: Word Salad Chopper: Reasoning Models Waste A Ton Of Decoding Budget On Useless Repetitions, Self-Knowingly
- arxiv url: http://arxiv.org/abs/2511.00536v1
- Date: Sat, 01 Nov 2025 12:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.829208
- Title: Word Salad Chopper: Reasoning Models Waste A Ton Of Decoding Budget On Useless Repetitions, Self-Knowingly
- Title(参考訳): Word Salad Chopper: 推論モデルは、無駄な繰り返しのデコード予算を無駄にする
- Authors: Wenya Xie, Shaochen, Zhong, Hoang Anh Duy Le, Zhaozhuo Xu, Jianwen Xie, Zirui Liu,
- Abstract要約: 大規模な推論モデル(LRM)は高コストの出力トークンによってボトルネックとなることが多い。
これらのトークンの大部分は,“ワードサラダ(word salad)”と呼ばれる,無駄な自己繰り返しであることを示す。
- 参考スコア(独自算出の注目度): 26.720439200130375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) are often bottlenecked by the high cost of output tokens. We show that a significant portion of these tokens are useless self-repetitions - what we call "word salad" - that exhaust the decoding budget without adding value. Interestingly, we observe that LRMs are self-aware when trapped in these loops: the hidden states of <\n\n> tokens trailing each reasoning chunk exhibit patterns that allow us to detect word salad behavior on-the-fly via a single-layer linear classifier. Once detected, a simple chop appended by a straightforward regeneration prompt yields substantial length savings with minimal quality loss. Our work offers WordSaladChopper (WSC) - a lightweight, turnkey component for LRM that is minimally invasive to its reasoning trajectory by only removing semantically redundant tokens. Given its low overhead, strong savings, and the lack of semantic value of word salad tokens, we believe it is not too far-fetched to argue that WSC - or a similar component - is a must-have for all LRM applications with user experience in mind. Our code is publicly available at https://github.com/wenyaxie023/WordSaladChopper.
- Abstract(参考訳): 大規模な推論モデル(LRM)は高コストの出力トークンによってボトルネックとなることが多い。
これらのトークンの大部分は、価値を追加することなくデコード予算を浪費する、役に立たない自己反復("ワードサラダ"と呼ぶもの)であることが示されています。
興味深いことに,これらのループに閉じ込められた場合, LRMは自己認識的である。各推論チャンクを追従する<\n\n>トークンの隠れ状態は,単層線形分類器を用いて,フライ時の単語サラダの振る舞いを検出するパターンを示す。
ひとたび検出されると、簡単なチョップが直接再生によって付加され、品質損失を最小限に抑えられる。
我々の研究はWordSaladChopper(WSC)を提供しています。これはLRMの軽量なターンキーコンポーネントで、意味論的に冗長なトークンを除去するだけで、推論軌道に最小限の侵襲的です。
オーバーヘッドが低く、省力化があり、ワードサラダトークンのセマンティックな価値が欠如していることを考えると、WSC(もしくは同様のコンポーネント)がユーザエクスペリエンスを念頭に置いているすべてのLRMアプリケーションにとって必須の要素であると主張するのは、それほど遠くないと思います。
私たちのコードはhttps://github.com/wenyaxie023/WordSaladChopperで公開されています。
関連論文リスト
- FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - PREMISE: Scalable and Strategic Prompt Optimization for Efficient Mathematical Reasoning in Large Models [14.824367675818355]
Claude 3.7 Sonnet や OpenAI o1 のような大きな推論モデル (LRM) は、長いチェーン・オブ・シークレット (CoT) 推論を用いて数学的なベンチマークで高い性能を達成する。
これによりトークンの使用とコストが膨らみ、レイテンシに敏感な設定やAPI制約のある設定でのデプロイメントが制限される。
モデル重みを変更することなく、推論オーバーヘッドを低減するプロンプトのみのフレームワークであるPreMISEを紹介する。
論文 参考訳(メタデータ) (2025-06-12T14:05:09Z) - What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding [84.42056293290015]
推論モデルと非推論モデルの間のトークンレベルのミスアライメントを分析する。
本稿では,FoReaL-Decodingを提案する。
一般的な4つの数学推論ベンチマークにおいて、FoReaL-Decodingは理論FLOPを30から50%減らし、CoTの長さを最大40%減らした。
論文 参考訳(メタデータ) (2025-06-08T05:08:32Z) - CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs [13.31195673556853]
隠れトークンの量と意味的妥当性の両方を検査する検証フレームワークであるCoInを提案する。
実験では、信頼できる第三者監査官としてデプロイされたCoInが、成功率94.7%に達するトークン数インフレーションを効果的に検出できることが示されている。
論文 参考訳(メタデータ) (2025-05-19T23:39:23Z) - $\texttt{SEM-CTRL}$: Semantically Controlled Decoding [53.86639808659575]
$texttSEM-CTRL$は、LLMデコーダに直接、リッチなコンテキスト依存制約とタスクおよびインスタンス固有のセマンティクスを強制する統一的なアプローチである。
texttSEM-CTRL$は、小さな訓練済みのLLMがより大きな変種や最先端の推論モデルよりも効率的に性能を向上することを可能にする。
論文 参考訳(メタデータ) (2025-03-03T18:33:46Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。
DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文 参考訳(メタデータ) (2022-11-16T08:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。