Fugu-MT 論文翻訳(概要): ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression

論文の概要: ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression

arxiv url: http://arxiv.org/abs/2605.07501v1
Date: Fri, 08 May 2026 09:37:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.965793
Title: ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression
Title（参考訳）: ExpThink: 適応型連鎖圧縮のための経験指導型強化学習
Authors: Tingcheng Bian, Yuzhe Zhang, Jing Jin, Jinchang Luo, MingQuan Cheng, Haiwei Wang, Wenyuan Jiang, Miaohui Wang,
Abstract要約: 大きな推論モデル(LRM)は、拡張チェーン・オブ・シークレット(CoT)推論を通じて高いパフォーマンスを達成するが、過度のトークン消費と高い推論遅延に悩まされる。両次元を2つの相補的な機構で処理するRLフレームワークである textbfExpThinkxspace を提案する。複数の数学的推論ベンチマークの実験により、textbfExpThinkxspaceは平均応答長を最大77%削減し、同時に精度を向上することを示した。
参考スコア（独自算出の注目度）: 14.830831997228657
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large reasoning models (LRMs) achieve strong performance via extended chain-of-thought (CoT) reasoning, yet suffer from excessive token consumption and high inference latency. Existing reinforcement learning (RL) approaches for CoT compression rely on uniform, static length penalties that neglect model capability dynamics and problem-level difficulty variation. We propose \textbf{ExpThink}\xspace, an RL framework that addresses both dimensions through two complementary mechanisms. First, \emph{experience-guided reward shaping} tracks the shortest correct solution found so far for each problem and applies a three-tier reward: full credit for concise correct responses, discounted credit for verbose correct ones, and zero for incorrect ones. The threshold tightens automatically with model improvement, forming a self-evolving curriculum that requires no manual scheduling. Second, \emph{difficulty-adaptive advantage} replaces standard deviation normalization with correct-count normalization, yielding monotonically difficulty-scaled gradients that amplify learning on hard problems to preserve accuracy while suppressing gradients on easy ones to encourage brevity. Together, these mechanisms enforce an accuracy-first, compression-second training objective. Experiments on multiple mathematical reasoning benchmarks demonstrate that \textbf{ExpThink}\xspace reduces average response length by up to 77\% while simultaneously improving accuracy, achieving up to $3\times$ higher accuracy-efficiency ratio (accuracy divided by average token count) than the vanilla baseline and outperforming existing RL-based compression methods on both metrics.
Abstract（参考訳）: 大きな推論モデル(LRM)は、拡張チェーン・オブ・シークレット(CoT)推論を通じて高いパフォーマンスを達成するが、過度のトークン消費と高い推論遅延に悩まされる。 CoT圧縮のための既存の強化学習(RL)アプローチは、モデル能力のダイナミクスや問題レベルの難易度を無視する一様で静的な長さのペナルティに依存している。両次元を2つの相補的な機構で処理する RL フレームワークである \textbf{ExpThink}\xspace を提案する。まず、emph{experience-guided reward shaping} は、各問題に対してこれまで見つかった最も短い正しい解を追跡し、3段階の報酬を与える。しきい値はモデルの改善によって自動的に強化され、手作業によるスケジューリングを必要としない自己進化型カリキュラムが形成される。第二に、'emph{difficulty-adaptive advantage} は標準偏差正規化を正数正規化に置き換え、単調に難解なスケールの勾配をもたらし、難解な問題に対する学習を増幅し、精度を保ちながら、容易な問題に対する勾配を抑える。同時に、これらのメカニズムは精度第一の圧縮秒のトレーニング目標を強制する。複数の数学的推論ベンチマークの実験によると、 \textbf{ExpThink}\xspace は平均応答長を 77\% まで削減し、同時に精度を向上し、バニラベースラインよりも3\times$高い精度・効率比(平均トークン数で割った精度)を達成する。

関連論文リスト

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning [34.14269693187003]
プログレッシブCoT長キャリブレーションを用いた新しい効率的な推論法であるSmartThinkerを提案する。実験の結果、SmartThinkerは52.5%の平均長圧縮を実現し、精度が向上した。
論文参考訳（メタデータ） (2026-03-09T06:08:14Z)
Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文参考訳（メタデータ） (2026-02-09T06:57:15Z)
Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。 TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文参考訳（メタデータ） (2025-12-10T01:54:57Z)
DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains [56.708381920156256]
大規模推論モデル(LRM)は印象的な能力を示してきたが、単純な問題を過度に考えることや複雑な問題を過小評価することといった認知的非効率に悩まされている。本稿では, LRMの精度と効率を両立させる新しいフレームワークである textbfDeepCompress を紹介する。
論文参考訳（メタデータ） (2025-10-31T12:13:11Z)
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。 DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文参考訳（メタデータ） (2025-10-16T20:05:57Z)
SIRI: Scaling Iterative Reinforcement Learning with Interleaved Compression [48.04180854972225]
大規模共振モデル(LRM)のための簡易かつ効果的なRLアプローチであるInterleaved Compressionを用いたSIRI(Scaling Iterative Reinforcement Learning)を導入する。このトレードオフは、推理予算の圧縮と拡大を反復的に交互に交互に行う訓練体制によって克服できることを示す。また, 各圧縮膨張サイクルの後に, 出力長が減少しても, モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2025-09-29T17:59:08Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。 CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文参考訳（メタデータ） (2025-05-23T18:44:46Z)
Accelerating Chain-of-Thought Reasoning: When Goal-Gradient Importance Meets Dynamic Skipping [3.521097198612099]
Adaptive GoGI-Skipは、教師付き微調整によって動的CoT圧縮を学ぶ新しいフレームワークである。 CoTトークンの数を平均で45%以上削減し、1.6～2.0倍の推論スピードアップを実現している。特に、高い効率の圧縮速度でも精度を保ち、既存のベースラインを著しく上回る。
論文参考訳（メタデータ） (2025-05-13T09:39:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。