Fugu-MT 論文翻訳(概要): The Perplexity Paradox: Why Code Compresses Better Than Math in LLM Prompts

論文の概要: The Perplexity Paradox: Why Code Compresses Better Than Math in LLM Prompts

arxiv url: http://arxiv.org/abs/2602.15843v1
Date: Wed, 21 Jan 2026 18:03:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.639673
Title: The Perplexity Paradox: Why Code Compresses Better Than Math in LLM Prompts
Title（参考訳）: パープレキシティのパラドックス: LLMのプロンプトで、コードが数学よりも圧縮性が高い理由
Authors: Warren Johnson,
Abstract要約: コード生成はアグレッシブ・プロンプト・圧縮(r >= 0.6)を許容し、チェーン・オブ・シークレット推論は徐々に低下する。 TAAC (Task-Aware Adaptive Compression) は品質保持率96%で22%のコスト削減を実現し, 定比圧縮を7%上回った。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In "Compress or Route?" (Johnson, 2026), we found that code generation tolerates aggressive prompt compression (r >= 0.6) while chain-of-thought reasoning degrades gradually. That study was limited to HumanEval (164 problems), left the "perplexity paradox" mechanism unvalidated, and provided no adaptive algorithm. This paper addresses all three gaps. First, we validate across six code benchmarks (HumanEval, MBPP, HumanEval+, MultiPL-E) and four reasoning benchmarks (GSM8K, MATH, ARC-Challenge, MMLU-STEM), confirming the compression threshold generalizes across languages and difficulties. Second, we conduct the first per-token perplexity analysis (n=723 tokens), revealing a "perplexity paradox": code syntax tokens are preserved (high perplexity) while numerical values in math problems are pruned despite being task-critical (low perplexity). Signature injection recovers +34 percentage points in pass rate (5.3% to 39.3%; Cohen's h=0.890). Third, we propose TAAC (Task-Aware Adaptive Compression), achieving 22% cost reduction with 96% quality preservation, outperforming fixed-ratio compression by 7%. MBPP validation (n=1,800 trials) confirms systematic variation: 3.6% at r=0.3 to 54.6% at r=1.0.
Abstract（参考訳）: Compress or Route? (Johnson, 2026)では、コード生成がアグレッシブ・プロンプト・圧縮(r >= 0.6)を許容し、チェーン・オブ・シークレット推論は徐々に低下することがわかった。この研究はHumanEval(164問題)に限られており、"perplexity paradox"メカニズムは無効にされ、適応アルゴリズムは提供されなかった。この論文は3つのギャップすべてに対処する。まず,6つのコードベンチマーク (HumanEval, MBPP, HumanEval+, MultiPL-E) と4つの推論ベンチマーク (GSM8K, MATH, ARC-Challenge, MMLU-STEM) で検証を行い,圧縮しきい値が言語全体にわたって一般化されることを確認した。第二に、コード構文トークンは保存され(高いパープレキシティ)、数学問題における数値はタスククリティカルな(低いパープレキシティ)にもかかわらず切断される(低パープレキシティ)。シグナチャインジェクションは、パスレート+34ポイント(5.3%から39.3%、コーエンのh=0.890)を回復させる。第3に, TAAC (Task-Aware Adaptive Compression) を提案し, 品質保持率96%で22%のコスト削減を実現し, 固定比圧縮率を7%向上させた。 MBPP検証(n=1,800臨床試験)では、r=0.3で3.6%、r=1.0で54.6%である。

関連論文リスト

Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding [0.0]
本研究では,自然言語テキストにおいて評価されたシステム間で最高の圧縮結果を得る圧縮システムであるNacrithについて述べる。このシステムは500MBのGGUF重量と1ワーカーあたり1.2GBのVRAMしか必要としない。 Alice29 (Canterbury Corpus, 152 KB) では、Nacrith は 0th-, 1st-, 2nd-order Shannon entropy 境界以下で 0.918bits per byte (bpb) を達成する。
論文参考訳（メタデータ） (2026-02-23T09:14:05Z)
ManifoldKV: Training-Free KV Cache Compression via Euclidean Outlier Detection [8.362927764080203]
キーセントロイドにユークリッド距離でトークンをランク付けする学習自由スコアラを提案する。 ManifoldKVは4K-16Kコンテキストで95.7%の精度を実現し、圧縮率は20%である。 WindowedManifoldKV は 25% 圧縮で 84.3% まで精度を回復し、グローバル L2 では 49 点、キーディフでは +3.2 点を回復する。
論文参考訳（メタデータ） (2026-02-09T07:28:55Z)
DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文参考訳（メタデータ） (2025-10-09T17:24:54Z)
VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。過度に考える傾向は、必然的に長い推論連鎖に繋がる。我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文参考訳（メタデータ） (2025-05-23T14:17:56Z)
Not All Tokens Are What You Need In Thinking [34.767739567093656]
条件付きトークン選択(CTS)は、思考の連鎖において最も重要なトークンのみを特定し保存する。 CTSは、強い推論性能を維持しながら、効果的に長いCoTを圧縮する。さらにトレーニングトークンを42%削減すると、限界5%の精度低下しか生じず、推論トークンの75.8%が減少する。
論文参考訳（メタデータ） (2025-05-23T12:41:29Z)
Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving [0.0]
本研究は,MATHデータセットを用いて10大言語モデル(LLM)を70億から80億のパラメータで評価する。焦点は、9450以上のコード実行を含む、推論プロセスのステップとして実行可能なPythonコードを生成する能力である。
論文参考訳（メタデータ） (2025-01-28T17:11:36Z)
Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文参考訳（メタデータ） (2024-11-25T12:44:02Z)
Semi-Compressed CRYSTALS-Kyber [4.317605401561789]
キーバーの通信オーバーヘッドを54%削減できることを示す。この改良は、暗号文量子化と平文符号化という2つの技術に基づいている。 Lloyd-Max量子化、8-PAM、グレイマッピング、短縮バイナリBCH(768,638,13)符号により、提案方式は638ビットを単一暗号文でカプセル化する。
論文参考訳（メタデータ） (2024-07-25T00:54:22Z)
Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。 LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文参考訳（メタデータ） (2024-06-14T13:42:38Z)
Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-04-19T16:29:48Z)
Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文参考訳（メタデータ） (2023-01-31T03:04:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。