論文の概要: Effectively Controlling Reasoning Models through Thinking Intervention
- arxiv url: http://arxiv.org/abs/2503.24370v1
- Date: Mon, 31 Mar 2025 17:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:48.564513
- Title: Effectively Controlling Reasoning Models through Thinking Intervention
- Title(参考訳): 思考介入による推論モデルの効果的制御
- Authors: Tong Wu, Chong Xiang, Jiachen T. Wang, Prateek Mittal,
- Abstract要約: 推論強化された大言語モデルは、最終回答を生成する前に、中間的推論ステップを明示的に生成する。
この新たな世代フレームワークは、モデルの振る舞いをよりきめ細かいコントロールするためのユニークな機会を提供します。
本稿では,LLMの内部推論プロセスを明示的に導くための新しいパラダイムであるThinking Interventionを提案する。
- 参考スコア(独自算出の注目度): 38.77100471547442
- License:
- Abstract: Reasoning-enhanced large language models (LLMs) explicitly generate intermediate reasoning steps prior to generating final answers, helping the model excel in complex problem-solving. In this paper, we demonstrate that this emerging generation framework offers a unique opportunity for more fine-grained control over model behavior. We propose Thinking Intervention, a novel paradigm designed to explicitly guide the internal reasoning processes of LLMs by strategically inserting or revising specific thinking tokens. We conduct comprehensive evaluations across multiple tasks, including instruction following on IFEval, instruction hierarchy on SEP, and safety alignment on XSTest and SORRY-Bench. Our results demonstrate that Thinking Intervention significantly outperforms baseline prompting approaches, achieving up to 6.7% accuracy gains in instruction-following scenarios, 15.4% improvements in reasoning about instruction hierarchies, and a 40.0% increase in refusal rates for unsafe prompts using open-source DeepSeek R1 models. Overall, our work opens a promising new research avenue for controlling reasoning LLMs.
- Abstract(参考訳): Reasoning-enhanced large language model (LLMs) は、最終的な答えを生成する前に、中間的推論ステップを明示的に生成し、複雑な問題解決においてモデルが優れているのに役立つ。
本稿では,この新世代フレームワークがモデル動作をよりきめ細かく制御するユニークな機会となることを実証する。
我々は,特定の思考トークンを戦略的に挿入あるいは改訂することにより,LSMの内部的推論プロセスを明示的にガイドする新しいパラダイムであるThinking Interventionを提案する。
IFEvalの命令追従、SEPの命令階層、XSTestとSORRY-Benchの安全性アライメントなど、複数のタスクの総合的な評価を行う。
その結果、Thinking Interventionはベースラインプロンプトのアプローチを著しく上回り、命令追従シナリオにおいて最大6.7%の精度向上、命令階層に関する推論の改善15.4%、オープンソースのDeepSeek R1モデルを用いた安全でないプロンプトに対する拒絶率40.0%の増加を実現している。
総じて,本研究はLLMを制御するための新たな研究の道を開く。
関連論文リスト
- IHEval: Evaluating Language Models on Following the Instruction Hierarchy [67.33509094445104]
命令階層は、システムメッセージからユーザメッセージ、会話履歴、ツール出力への優先順位を定めている。
その重要性にもかかわらず、このトピックは限定的な注目を集めており、命令階層に従うモデルの能力を評価するための包括的なベンチマークが欠如している。
IHEvalは、異なる優先順位の命令が一致または矛盾するケースをカバーする、新しいベンチマークです。
論文 参考訳(メタデータ) (2025-02-12T19:35:28Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - SEER: Facilitating Structured Reasoning and Explanation via Reinforcement Learning [29.514755268807868]
構造的推論と説明を容易にする構造的回帰を最大化する新しい手法であるSEERを提案する。
提案手法は構造的推論に固有の階層構造と分岐構造を正確に記述する。
実験の結果,SEERは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-01-24T06:10:51Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。