論文の概要: How Does Prefix Matter in Reasoning Model Tuning?
- arxiv url: http://arxiv.org/abs/2601.01624v1
- Date: Sun, 04 Jan 2026 18:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.576096
- Title: How Does Prefix Matter in Reasoning Model Tuning?
- Title(参考訳): モデルチューニングにおける事前修正の方法
- Authors: Raj Vardhan Tomar, Preslav Nakov, Yuxia Wang,
- Abstract要約: 推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
- 参考スコア(独自算出の注目度): 57.69882799751655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent alignment studies commonly remove introductory boilerplate phrases from supervised fine-tuning (SFT) datasets. This work challenges that assumption. We hypothesize that safety- and reasoning-oriented prefix sentences serve as lightweight alignment signals that can guide model decoding toward safer and more coherent responses. To examine this, we fine-tune three R1 series models across three core model capabilities: reasoning (mathematics, coding), safety, and factuality, systematically varying prefix inclusion from 0% to 100%. Results show that prefix-conditioned SFT improves both safety and reasoning performance, yielding up to +6% higher Safe@1 accuracy on adversarial benchmarks (WildJailbreak, StrongReject) and +7% improvement on GSM8K reasoning. However, factuality and coding tasks show marginal or negative effects, indicating that prefix-induced narrowing of the search space benefits structured reasoning. Token-level loss analysis further reveals that prefix tokens such as "revised" and "logically" incur higher gradient magnitudes, acting as alignment anchors that stabilize reasoning trajectories. Our findings suggest that prefix conditioning offers a scalable and interpretable mechanism for improving reasoning safety, serving as an implicit form of alignment that complements traditional reward-based methods.
- Abstract(参考訳): 最近のアライメント研究は、一般に、教師付き微調整(SFT)データセットから導入されたボイラープレート句を除去する。
この仕事はその仮定に挑戦する。
安全および推論指向のプレフィックス文は、モデルデコーディングをより安全で一貫性のある応答へと導くための軽量なアライメント信号として機能する、という仮説を立てる。
そこで本研究では,3種類のR1系列モデルを,推論(数学,コーディング),安全性,事実性の3つのコアモデルで微調整し,0%から100%まで体系的に変化した。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,競合ベンチマーク(WildJailbreak,StrongReject)のSafe@1精度が+6%,GSM8K推論が+7%向上した。
しかし、事実性やコーディングタスクは限界効果や負の効果を示し、前置詞による検索空間の絞り込みが構造的推論の恩恵をもたらすことを示している。
トークンレベルの損失分析により、"revised" や "logically" のような接頭辞トークンは、推論軌道を安定化するアライメントアンカーとして機能し、より高い勾配の等級を生じることが明らかになった。
本研究は,従来の報酬法を補完するアライメントの暗黙の形式として機能し,推論安全性を向上させるための拡張的かつ解釈可能なメカニズムをプレフィックス条件で提供することを示唆している。
関連論文リスト
- Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - UnsafeChain: Enhancing Reasoning Model Safety via Hard Cases [57.69882799751655]
さまざまなソースを持つハードプロンプトから構築された安全アライメントデータセットであるUnsafeChainをリリースする。
我々は3つの大きな推論モデル(LRM)を微調整し、それらを最近のSafeChainとSTAR-1と比較する。
UnsafeChainは、1Kサブセットのマッチングやベースラインのパフォーマンスを越えながら、従来よりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-07-29T10:08:52Z) - Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。