論文の概要: ThinkPilot: Steering Reasoning Models via Automated Think-prefixes Optimization
- arxiv url: http://arxiv.org/abs/2510.12063v1
- Date: Tue, 14 Oct 2025 02:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.143134
- Title: ThinkPilot: Steering Reasoning Models via Automated Think-prefixes Optimization
- Title(参考訳): ThinkPilot: 自動化されたThink-prefixes最適化によるステアリング推論モデル
- Authors: Sunzhu Li, Zhiyu Lin, Shuling Yang, Jiale Zhao, Wei Chen,
- Abstract要約: 大型共振モデル(LRM)は強力だが、それでも非効率性や標的外推論に悩まされている。
本稿では,LRM推論を自動的に最適化するトレーニングフリーフレームワークであるThinkPilotを紹介する。
それは進化過程を使って思考を生成するが、それは推論行動の分類によって進化する指示である。
- 参考スコア(独自算出の注目度): 8.765548346606218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) are powerful, but they still suffer from inefficient and off-target reasoning. Currently, training-free methods are limited to either rigid heuristics or descriptive, non-actionable analyses. In this paper, we introduce ThinkPilot, a training-free framework that automatically optimizes LRMs reasoning. It uses an evolutionary process to generate think-prefixes, which are instructions that evolve driven by a taxonomy of reasoning behaviors to guide models toward superior performance. Extensive experiments demonstrate ThinkPilot's broad effectiveness: it significantly improves the accuracy-length trade-off for efficient reasoning, drastically improves safety (for example, cutting the StrongREJECT score of DeepSeek-R1-Distill-Qwen-32B from 27.0% to 0.7), and enhances instruction following. It also synergizes with existing training-based methods. Our analysis reveals that think-prefixes can reliably control LRMs' reasoning behaviors, and that different tasks have strong preferences for specific behavioral distributions. By automatically identifying and eliciting these behaviors, ThinkPilot provides a generalizable framework for aligning LRMs reasoning with task demands. Data and code are available at https://github.com/teqkilla/ThinkPilot
- Abstract(参考訳): 大型共振モデル(LRM)は強力だが、それでも非効率性や標的外推論に悩まされている。
現在、訓練なしの手法は、厳密なヒューリスティックまたは記述的で非作用的な分析に限られている。
本稿では,LRM推論を自動的に最適化するトレーニングフリーフレームワークであるThinkPilotを紹介する。
思考前修正(Think-prefixes)は、推論行動の分類によって進化し、モデルが優れたパフォーマンスに向かって導く指示である。
大規模な実験はThinkPilotの幅広い効果を示す: 効率的な推論のための精度-長さのトレードオフを著しく改善し、安全性を大幅に改善する(例えば、DeepSeek-R1-Distill-Qwen-32BのStrongREJECTスコアを27.0%から0.7にカット)。
また、既存のトレーニングベースのメソッドと相乗効果がある。
分析の結果,思考前修正がLEMの推論行動を確実に制御し,特定の行動分布に強い嗜好を持つことが明らかとなった。
これらの振舞いを自動的に識別し、引き出すことにより、ThinkPilotは、LEMの推論とタスク要求を整合させる、一般化可能なフレームワークを提供する。
データとコードはhttps://github.com/teqkilla/ThinkPilotで入手できる。
関連論文リスト
- Gold-Switch: Training-Free Superposition of Slow- and Fast- Thinking LLMs [36.84838904299283]
大規模推論モデル(LRM)は、意図的な人間の推論をエミュレートすることで、構造化されたタスクに優れるが、しばしば過度な考えに悩まされる。
本稿では,1つのモデルのオン/オフによるスイッチング推論を最適化するために,軽量でトレーニング不要な規制を施したデプロイ戦略を提案する。
論文 参考訳(メタデータ) (2025-10-08T08:17:57Z) - SSPO: Self-traced Step-wise Preference Optimization for Process Supervision and Reasoning Compression [15.87106741558898]
後学習法は補助的なモデルや過度な考えのためにかなりの計算オーバーヘッドを発生させる。
本稿では,プラグインRLgableプロセス監視フレームワークであるSSPO(Self-traced Step-wise Preference Optimization)を提案する。
SSPOは、モデル自身が生成したステップワイズ優先信号を使用して、圧縮を推論するための最適化プロセスを導出する。
論文 参考訳(メタデータ) (2025-08-18T04:02:15Z) - Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - BadReasoner: Planting Tunable Overthinking Backdoors into Large Reasoning Models for Fun or Profit [12.189197763012409]
大規模言語モデル(LRM)は人工知能の重要な進歩として現れている。
本稿では,LRMに対する未探索攻撃ベクトルを同定し,これを「過度なチューナブル」と呼ぶ。
そこで本研究では,単純なオン/オフ攻撃を超越して,攻撃者がモデルの推論冗長性の範囲を正確に制御できるような,新たな調整可能なバックドアを提案する。
論文 参考訳(メタデータ) (2025-07-24T11:24:35Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [36.40577746211243]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。
推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文 参考訳(メタデータ) (2025-05-16T04:01:57Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。