論文の概要: SEAL: Steerable Reasoning Calibration of Large Language Models for Free
- arxiv url: http://arxiv.org/abs/2504.07986v1
- Date: Mon, 07 Apr 2025 02:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 01:11:20.365625
- Title: SEAL: Steerable Reasoning Calibration of Large Language Models for Free
- Title(参考訳): SEAL: 無料の大規模言語モデルのステアリングキャリブレーション
- Authors: Runjin Chen, Zhenyu Zhang, Junyuan Hong, Souvik Kundu, Zhangyang Wang,
- Abstract要約: 大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
- 参考スコア(独自算出の注目度): 58.190800043449336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), such as OpenAI's o1-series have demonstrated compelling capabilities for complex reasoning tasks via the extended chain-of-thought (CoT) reasoning mechanism. However, recent studies reveal substantial redundancy in the CoT reasoning traces, which not only increases inference latency but also negatively impacts model performance by diverting attention to unnecessary reasoning paths. To address this issue, we investigate the internal reasoning structures of LLMs and categorize them into three primary thought types: execution, reflection, and transition thoughts. Moreover, our analysis reveals that excessive reflection and transition thoughts are strongly correlated with failure cases and these thought categories exhibit clear separation in the latent space. Based on these, we introduce SEAL (Steerable reasoning calibration), a training-free approach that seamlessly calibrates the CoT process, improving accuracy while demonstrating significant efficiency gains. SEAL consists of an offline stage for extracting the reasoning steering vector in the latent space, followed by an on-the-fly calibration of the reasoning trace through representation intervention using the steering vector. Notably, the steering vector exhibits strong transferability across various tasks. Extensive experiments across multiple models (DeepSeek-R1-Distill and QwQ-32B-Preview) and benchmarks (Math500, GSM8K, LiveCodeBench) validate the effectiveness of SEAL, up to a 11% improvement in accuracy while reducing reasoning tokens by 11.8% to 50.4%. Our code is publicly available at https://github.com/VITA-Group/SEAL.
- Abstract(参考訳): OpenAIのo1シリーズのような大規模言語モデル(LLM)は、拡張チェーン・オブ・シークレット(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示している。
しかし,近年の研究では,推論遅延の増加だけでなく,不必要な推論経路に注意を移すことによってモデル性能に悪影響を及ぼすCoT推論トレースにかなりの冗長性があることが示されている。
この問題に対処するために, LLMの内部的推論構造を調査し, それらを3つの主要な思考タイプ(実行, 反射, 遷移思考)に分類する。
さらに,過度なリフレクションと遷移思考は障害事例と強く相関しており,これらのカテゴリは潜伏空間における明確な分離を示す。
そこで本研究では,CoTプロセスのシームレスな校正を行なわず,高い効率性を示しながら精度を向上するSEAL(Steerable reasoning calibration)を導入する。
SEALは、潜在空間における推論ステアリングベクトルを抽出するオフラインステージと、ステアリングベクトルを用いた表現介入による推論トレースのオンザフライキャリブレーションで構成される。
特に、操舵ベクトルは様々なタスクに対して強い伝達性を示す。
複数のモデル(DeepSeek-R1-DistillとQwQ-32B-Preview)とベンチマーク(Math500、GSM8K、LiveCodeBench)にわたる大規模な実験はSEALの有効性を検証し、推論トークンを11.8%から50.4%削減した。
私たちのコードはhttps://github.com/VITA-Group/SEAL.comで公開されています。
関連論文リスト
- Efficient Reasoning for Large Reasoning Language Models via Certainty-Guided Reflection Suppression [30.653381666162275]
Certainty-Guided Reflection Suppression (CGRS) は、Large Reasoning Language Models (LRLM) における過度な思考を緩和する新しい方法である。
CGRSは、モデルが現在の応答に高い信頼を示すときに、モデルが生成するリフレクショントリガを動的に抑制することで機能する。
我々のアプローチはモデルに依存しず、再トレーニングやアーキテクチャの変更は必要とせず、既存の自己回帰生成パイプラインとシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-07T12:38:22Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Excessive Reasoning Attack on Reasoning LLMs [26.52688123765127]
本研究では,過度な推論行動を活用するために,敵対的入力を作成できるという,新たな脅威を明らかにする。
提案手法は,実用性能に匹敵する推理長を3倍から9倍に向上することを示した。
提案手法は,o3-mini,o1-mini,DeepSeek-R1,QWQモデルで計算オーバーヘッドを誘導するトランスファービリティを示す。
論文 参考訳(メタデータ) (2025-06-17T10:16:52Z) - KG-TRACES: Enhancing Large Language Models with Knowledge Graph-constrained Trajectory Reasoning and Attribution Supervision [8.025866693669622]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な進歩を遂げてきたが、複雑な推論問題におけるそれらの性能は、説明責任と信頼性の欠如によって妨げられている。
我々は,LLMの推論能力を高めるために,知識グラフ制約トラジェクトリ推論属性と連鎖説明スーパービジョン(KG-TRACES)を提案する。
KG-TRACES は,(1) 記号関係経路の予測,(2) 完全三重レベル推論経路の予測,(3) 帰属対応推論過程の推論経路の予測を共同で行う。
論文 参考訳(メタデータ) (2025-06-01T02:20:45Z) - Steering LLM Reasoning Through Bias-Only Adaptation [4.486093197820339]
強化学習の微調整は新しい機能を創出しないが、すでに訓練済みのネットワークに潜んでいる推論パターンを強化する。
我々はこの主張を、ステアリングベクトルをトレーニングすることで検証する: 選択された隠れた特徴を付加的に増幅する層ワイドバイアス。
GSM8KとMATHベンチマークによる4つのベースモデルの実験では、ステアリングベクターが回復し、場合によっては完全に調整されたベクターの精度を超えることが示されている。
論文 参考訳(メタデータ) (2025-05-24T13:55:38Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Do Reasoning Models Show Better Verbalized Calibration? [19.776645881640178]
長い推理トレース上での微調整蒸留を指導したLRMのキャリブレーション特性について検討した。
以上の結果から,LEMは複雑な推論タスクにおいて,精度と信頼性の校正の両方において,命令調整モデルよりも有意に優れていた。
本研究は,LLMの信頼性・自己認識出力生成能力を向上させる上で,推論指向のRLトレーニングが潜在的に重要な役割を担っていることを示すものである。
論文 参考訳(メタデータ) (2025-04-09T03:58:19Z) - ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。
本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。
我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文 参考訳(メタデータ) (2025-03-27T17:44:18Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - Quantifying Logical Consistency in Transformers via Query-Key Alignment [20.636818928993684]
本稿では,論理的推論のための新しい軽量評価手法を提案する。
提案手法は,1つのフォワードパスを計算し,慎重に選択されたヘッドから「QKスコア」を抽出することにより,無効な推論から確実に分離した潜在表現を明らかにする。
論文 参考訳(メタデータ) (2025-02-24T10:02:50Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning [23.99454995087634]
大規模推論モデルにおけるルールベース強化学習の可能性について検討する。
合成論理パズルは, 制御可能な複雑性と簡単な解答検証により, 学習データとして用いられる。
我々の7Bモデルは、論理コーパスにはない、リフレクション、検証、要約のような高度な推論スキルを発達させる。
論文 参考訳(メタデータ) (2025-02-20T17:49:26Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。