論文の概要: Effectively Controlling Reasoning Models through Thinking Intervention
- arxiv url: http://arxiv.org/abs/2503.24370v2
- Date: Mon, 19 May 2025 04:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.564277
- Title: Effectively Controlling Reasoning Models through Thinking Intervention
- Title(参考訳): 思考介入による推論モデルの効果的制御
- Authors: Tong Wu, Chong Xiang, Jiachen T. Wang, G. Edward Suh, Prateek Mittal,
- Abstract要約: Reasoning-enhanced large language model (LLM) は、最終回答を生成する前に、中間推論ステップを明示的に生成する。
本稿では,LLMの内部推論プロセスを明示的に導くための新しいパラダイムであるThinking Interventionを提案する。
- 参考スコア(独自算出の注目度): 41.38412282063417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning-enhanced large language models (LLMs) explicitly generate intermediate reasoning steps prior to generating final answers, helping the model excel in complex problem-solving. In this paper, we demonstrate that this emerging generation framework offers a unique opportunity for more fine-grained control over model behavior. We propose Thinking Intervention, a novel paradigm designed to explicitly guide the internal reasoning processes of LLMs by strategically inserting or revising specific thinking tokens. We find that the Thinking Intervention paradigm enhances the capabilities of reasoning models across a wide range of tasks, including instruction following on IFEval, instruction hierarchy on SEP, and safety alignment on XSTest and SorryBench. Our results demonstrate that Thinking Intervention significantly outperforms baseline prompting approaches, achieving up to 6.7% accuracy gains in instruction-following scenarios, 15.4% improvements in reasoning about instruction hierarchies, and a 40.0% increase in refusal rates for unsafe prompts using open-source DeepSeek R1 models. Overall, our work opens a promising new research avenue for controlling reasoning LLMs.
- Abstract(参考訳): Reasoning-enhanced large language model (LLMs) は、最終的な答えを生成する前に、中間的推論ステップを明示的に生成し、複雑な問題解決においてモデルが優れているのに役立つ。
本稿では,この新世代フレームワークがモデル動作をよりきめ細かく制御するユニークな機会となることを実証する。
我々は,特定の思考トークンを戦略的に挿入あるいは改訂することにより,LSMの内部的推論プロセスを明示的にガイドする新しいパラダイムであるThinking Interventionを提案する。
シンキング・インターベンション(Thinking Intervention)パラダイムは、IFEvalの命令追従、SEPの命令階層、XSTestとSorryBenchの安全性アライメントなど、幅広いタスクにおけるモデル推論能力を向上させる。
その結果、Thinking Interventionはベースラインプロンプトのアプローチを著しく上回り、命令追従シナリオにおいて最大6.7%の精度向上、命令階層に関する推論の改善15.4%、オープンソースのDeepSeek R1モデルを用いた安全でないプロンプトに対する拒絶率40.0%の増加を実現している。
総じて,本研究はLLMを制御するための新たな研究の道を開く。
関連論文リスト
- OpenDeception: Benchmarking and Investigating AI Deceptive Behaviors via Open-ended Interaction Simulation [23.204532296472834]
オープンなシナリオデータセットを備えた,新たな偽装評価フレームワークであるOpenDeceptionを紹介する。
OpenDeception は LLM をベースとしたエージェントの偽装意図と能力の両方を, 内部推論過程を検査することによって共同評価する。
そこで本研究では, エージェントシミュレーションによるマルチターン対話をシミュレートする手法を提案する。
論文 参考訳(メタデータ) (2025-04-18T14:11:27Z) - Truthful or Fabricated? Using Causal Attribution to Mitigate Reward Hacking in Explanations [30.68740512996253]
思考の連鎖の説明は、大きな言語モデルの決定過程を調べるために広く使われている。
これらの説明の忠実さを必然的に低減することができることを示す。
論文 参考訳(メタデータ) (2025-04-07T17:49:23Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。
StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文 参考訳(メタデータ) (2025-03-17T08:51:44Z) - Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities [74.35956310688164]
ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。
LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。
LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
論文 参考訳(メタデータ) (2025-03-14T04:34:31Z) - Attentive Reasoning Queries: A Systematic Method for Optimizing Instruction-Following in Large Language Models [0.0]
本稿では,新しい構造化推論手法であるAttentive Reasoning Queries (ARQs)を提案する。
ARQは、ドメイン特化推論ブループリントを通じて、大規模言語モデルにおける命令追跡を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-05T17:03:48Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model [14.480267340831542]
高精度世界モデル(SWAP)による構造認識計画
SWAPは構造化知識表現と学習計画を統合する。
SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-10-04T04:23:36Z) - OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning [15.59540726867483]
我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。
誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2023-11-16T09:56:28Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。