論文の概要: SEAL: Steerable Reasoning Calibration of Large Language Models for Free
- arxiv url: http://arxiv.org/abs/2504.07986v1
- Date: Mon, 07 Apr 2025 02:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:20:16.814041
- Title: SEAL: Steerable Reasoning Calibration of Large Language Models for Free
- Title(参考訳): SEAL: 無料の大規模言語モデルのステアリングキャリブレーション
- Authors: Runjin Chen, Zhenyu Zhang, Junyuan Hong, Souvik Kundu, Zhangyang Wang,
- Abstract要約: 大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
- 参考スコア(独自算出の注目度): 58.190800043449336
- License:
- Abstract: Large Language Models (LLMs), such as OpenAI's o1-series have demonstrated compelling capabilities for complex reasoning tasks via the extended chain-of-thought (CoT) reasoning mechanism. However, recent studies reveal substantial redundancy in the CoT reasoning traces, which not only increases inference latency but also negatively impacts model performance by diverting attention to unnecessary reasoning paths. To address this issue, we investigate the internal reasoning structures of LLMs and categorize them into three primary thought types: execution, reflection, and transition thoughts. Moreover, our analysis reveals that excessive reflection and transition thoughts are strongly correlated with failure cases and these thought categories exhibit clear separation in the latent space. Based on these, we introduce SEAL (Steerable reasoning calibration), a training-free approach that seamlessly calibrates the CoT process, improving accuracy while demonstrating significant efficiency gains. SEAL consists of an offline stage for extracting the reasoning steering vector in the latent space, followed by an on-the-fly calibration of the reasoning trace through representation intervention using the steering vector. Notably, the steering vector exhibits strong transferability across various tasks. Extensive experiments across multiple models (DeepSeek-R1-Distill and QwQ-32B-Preview) and benchmarks (Math500, GSM8K, LiveCodeBench) validate the effectiveness of SEAL, up to a 11% improvement in accuracy while reducing reasoning tokens by 11.8% to 50.4%. Our code is publicly available at https://github.com/VITA-Group/SEAL.
- Abstract(参考訳): OpenAIのo1シリーズのような大規模言語モデル(LLM)は、拡張チェーン・オブ・シークレット(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示している。
しかし,近年の研究では,推論遅延の増加だけでなく,不必要な推論経路に注意を移すことによってモデル性能に悪影響を及ぼすCoT推論トレースにかなりの冗長性があることが示されている。
この問題に対処するために, LLMの内部的推論構造を調査し, それらを3つの主要な思考タイプ(実行, 反射, 遷移思考)に分類する。
さらに,過度なリフレクションと遷移思考は障害事例と強く相関しており,これらのカテゴリは潜伏空間における明確な分離を示す。
そこで本研究では,CoTプロセスのシームレスな校正を行なわず,高い効率性を示しながら精度を向上するSEAL(Steerable reasoning calibration)を導入する。
SEALは、潜在空間における推論ステアリングベクトルを抽出するオフラインステージと、ステアリングベクトルを用いた表現介入による推論トレースのオンザフライキャリブレーションで構成される。
特に、操舵ベクトルは様々なタスクに対して強い伝達性を示す。
複数のモデル(DeepSeek-R1-DistillとQwQ-32B-Preview)とベンチマーク(Math500、GSM8K、LiveCodeBench)にわたる大規模な実験はSEALの有効性を検証し、推論トークンを11.8%から50.4%削減した。
私たちのコードはhttps://github.com/VITA-Group/SEAL.comで公開されています。
関連論文リスト
- Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning [23.99454995087634]
大規模推論モデルにおけるルールベース強化学習の可能性について検討する。
合成論理パズルは, 制御可能な複雑性と簡単な解答検証により, 学習データとして用いられる。
我々の7Bモデルは、論理コーパスにはない、リフレクション、検証、要約のような高度な推論スキルを発達させる。
論文 参考訳(メタデータ) (2025-02-20T17:49:26Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。