Fugu-MT 論文翻訳(概要): STU-PID: Steering Token Usage via PID Controller for Efficient Large Language Model Reasoning

論文の概要: STU-PID: Steering Token Usage via PID Controller for Efficient Large Language Model Reasoning

arxiv url: http://arxiv.org/abs/2506.18831v1
Date: Mon, 23 Jun 2025 16:47:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:37.09115
Title: STU-PID: Steering Token Usage via PID Controller for Efficient Large Language Model Reasoning
Title（参考訳）: STU-PID:大規模言語モデル推論のためのPID制御によるステアリングトークンの利用
Authors: Aryasomayajula Ram Bharadwaj,
Abstract要約: 拡張チェーン・オブ・シンクレット(CoT)推論を用いた大規模言語モデルは、しばしば過度に考え抜かれた現象に悩まされる。推論中の操舵強度を動的に活性化するPIDコントローラを用いた新しいトレーニングフリー手法STUPIDを提案する。提案手法では,冗長推論パターンを検出するチャンクレベル分類器と,予測冗長性確率に基づいて操舵強度を適応的に調整するPID制御機構を組み合わせる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models employing extended chain-of-thought (CoT) reasoning often suffer from the overthinking phenomenon, generating excessive and redundant reasoning steps that increase computational costs while potentially degrading performance. While recent work has explored static steering approaches to mitigate this issue, they lack the adaptability to dynamically adjust intervention strength based on real-time reasoning quality. We propose STUPID (Steering Token Usage via PID controller), a novel training-free method that employs a PID controller to dynamically modulate activation steering strength during inference. Our approach combines a chunk-level classifier for detecting redundant reasoning patterns with a PID control mechanism that adaptively adjusts steering intensity based on the predicted redundancy probability. Experimental evaluation on GSM8K demonstrates that STUPID achieves a 6% improvement in accuracy while reducing token usage by 32%, outperforming static steering baselines. Our method provides a principled framework for dynamic reasoning calibration that maintains reasoning quality while significantly improving computational efficiency.
Abstract（参考訳）: 拡張チェーン・オブ・シークレット(CoT)推論を用いた大規模言語モデルは、過度で冗長な推論ステップを発生させ、計算コストを増大させ、性能を低下させる可能性がある。近年の研究では、この問題を軽減するための静的ステアリングアプローチについて検討されているが、リアルタイム推論の品質に基づいて介入強度を動的に調整する適応性に欠けていた。提案するSTUPID(Steering Token Usage via PID controller)は, PIDコントローラを用いて, 推論中のアクティベーションステアリング強度を動的に変調する新しいトレーニングフリー手法である。提案手法では,冗長推論パターンを検出するチャンクレベル分類器と,予測冗長性確率に基づいて操舵強度を適応的に調整するPID制御機構を組み合わせる。 GSM8Kでの実験的評価は、STUPIDが6%の精度向上を実現し、トークン使用率を32%削減し、静的ステアリングベースラインを上回っていることを示している。本手法は, 推論品質を維持しつつ, 計算効率を著しく向上する動的推論キャリブレーションの原理的枠組みを提供する。

関連論文リスト

Internalizing LLM Reasoning via Discovery and Replay of Latent Actions [4.830503861275364]
連鎖プロセスの隠れ状態への内部化は、テスト時間計算をスケールするための非常に効率的なパラダイムとして現れている。動的潜在軌道制御問題として推論強化を再構築するSTIR(Self-Distilled Tools for Internal Reasoning)を提案する。
論文参考訳（メタデータ） (2026-02-04T08:44:57Z)
RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。 RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文参考訳（メタデータ） (2026-01-14T08:04:33Z)
TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。 TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文参考訳（メタデータ） (2025-12-13T07:53:14Z)
Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7～39%増加させ、明確な質問を1.5～2.7$times$に減らした。
論文参考訳（メタデータ） (2025-11-11T21:50:44Z)
Activation Steering with a Feedback Controller [4.609594868699996]
Proportional-Integral-Derivative (PID) Steeringは、大きな言語モデルにおけるアクティベーションステアリングに完全なPIDコントローラを利用する、原則化されたフレームワークである。 PIDステアリングは既存のアプローチを一貫して上回り、より堅牢で信頼性の高い行動制御を実現する。
論文参考訳（メタデータ） (2025-10-05T18:05:28Z)
LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization [48.91511514636768]
本稿では,外部制約から固有モデル能力へ推論長制御を変換するフレームワークであるLongth-Adaptive Policy Optimization (LAPO)を提案する。 LAPOは、2段階の強化学習プロセスを通じて適切な推論深度を理解することができる。数学的推論ベンチマークの実験では、LAPOはトークンの使用量を最大40.9%削減し、精度は2.3%向上した。
論文参考訳（メタデータ） (2025-07-21T16:14:41Z)
KV Cache Steering for Inducing Reasoning in Small Language Models [44.97633860257524]
言語モデルの暗黙的ステアリングのための軽量な手法であるキャッシュステアリングを提案する。キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文参考訳（メタデータ） (2025-07-11T17:59:36Z)
KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。 KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文参考訳（メタデータ） (2025-07-11T04:07:10Z)
ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。 DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文参考訳（メタデータ） (2025-06-23T16:20:44Z)
Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。 LRM効率を向上させるための2つの軽量手法を提案する。まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文参考訳（メタデータ） (2025-06-18T17:18:12Z)
Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。トークン消費量を30～55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文参考訳（メタデータ） (2025-05-27T03:18:31Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
Bisimulation metric for Model Predictive Control [44.301098448479195]
Bisimulation Metric for Model Predictive Control (BS-MPC) は、目的関数にbisimulation metric lossを組み込んでエンコーダを直接最適化する新しい手法である。 BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。我々は,DeepMind Control Suiteから連続制御および画像ベースタスクのBS-MPCを評価する。
論文参考訳（メタデータ） (2024-10-06T17:12:10Z)
PID Control-Based Self-Healing to Improve the Robustness of Large Language Models [23.418411870842178]
マイナーな摂動は、よく訓練された言語モデルの性能を大幅に低下させる。我々は、望ましくないモデル行動を修正するために、計算効率の良い自己修復プロセスを構築した。提案したPID制御による自己修復は、事前訓練された大規模言語モデルの堅牢性を改善するための低コストなフレームワークである。
論文参考訳（メタデータ） (2024-03-31T23:46:51Z)
Self-Tuning PID Control via a Hybrid Actor-Critic-Based Neural Structure for Quadcopter Control [0.0]
Proportional-Integrator-Derivative (PID) コントローラは、幅広い産業および実験プロセスで使用されている。モデルパラメータの不確実性と外乱のため、Quadrotorsのような実際のシステムはより堅牢で信頼性の高いPIDコントローラを必要とする。本研究では,Reinforcement-Learning-based Neural Networkを用いた自己調整型PIDコントローラについて検討した。
論文参考訳（メタデータ） (2023-07-03T19:35:52Z)
Performance-Driven Controller Tuning via Derivative-Free Reinforcement Learning [6.5158195776494]
我々は,新しい微分自由強化学習フレームワークを用いて,制御器のチューニング問題に取り組む。我々は,PIDコントローラを用いた適応走行制御とMPCコントローラを用いた軌道追跡という,自律走行による2つの具体例に関する数値実験を行った。実験の結果,提案手法は一般的なベースラインよりも優れており,コントローラチューニングの強い可能性を強調している。
論文参考訳（メタデータ） (2022-09-11T13:01:14Z)
Online Reinforcement Learning Control by Direct Heuristic Dynamic Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文参考訳（メタデータ） (2020-06-16T05:51:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。