論文の概要: STAR-1: Safer Alignment of Reasoning LLMs with 1K Data
- arxiv url: http://arxiv.org/abs/2504.01903v1
- Date: Wed, 02 Apr 2025 17:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:57.106616
- Title: STAR-1: Safer Alignment of Reasoning LLMs with 1K Data
- Title(参考訳): STAR-1:1KデータによるLLMの高精度アライメント
- Authors: Zijun Wang, Haoqin Tu, Yuhan Wang, Juncheng Wu, Jieru Mei, Brian R. Bartoldson, Bhavya Kailkhura, Cihang Xie,
- Abstract要約: STAR-1は、大きな推論モデル(LRM)用に特別に設計された高品質でジャスト1kスケールの安全データセットである。
STAR-1は、多様性、熟考的推論、厳密なフィルタリングという3つの原則に基づいて構築されている。
- 参考スコア(独自算出の注目度): 33.51888940162213
- License:
- Abstract: This paper introduces STAR-1, a high-quality, just-1k-scale safety dataset specifically designed for large reasoning models (LRMs) like DeepSeek-R1. Built on three core principles -- diversity, deliberative reasoning, and rigorous filtering -- STAR-1 aims to address the critical needs for safety alignment in LRMs. Specifically, we begin by integrating existing open-source safety datasets from diverse sources. Then, we curate safety policies to generate policy-grounded deliberative reasoning samples. Lastly, we apply a GPT-4o-based safety scoring system to select training examples aligned with best practices. Experimental results show that fine-tuning LRMs with STAR-1 leads to an average 40% improvement in safety performance across four benchmarks, while only incurring a marginal decrease (e.g., an average of 1.1%) in reasoning ability measured across five reasoning tasks. Extensive ablation studies further validate the importance of our design principles in constructing STAR-1 and analyze its efficacy across both LRMs and traditional LLMs. Our project page is https://ucsc-vlaa.github.io/STAR-1.
- Abstract(参考訳): 本稿では,DeepSeek-R1のような大規模推論モデル(LRM)に特化して設計された,高品質でジャスト1kスケールの安全性データセットSTAR-1を紹介する。
STAR-1は、多様性、熟考的推論、厳密なフィルタリングという3つの原則に基づいて構築されている。
具体的には、さまざまなソースから既存のオープンソースの安全データセットを統合することから始めます。
そして、安全政策をキュレートし、政策に基づく熟考的推論サンプルを生成する。
最後に,GPT-4oに基づく安全スコアリングシステムを適用し,ベストプラクティスに沿ったトレーニング事例を選択する。
実験結果から,STAR-1を用いた微調整LEMは4つのベンチマークで平均40%の安全性向上を実現したのに対し,5つの推論タスクにおける推論能力の限界低下(例:平均1.1%)がみられた。
広範囲にわたるアブレーション研究により,STAR-1の構築における設計原則の重要性がさらに検証され,その有効性はLRMと従来のLLMの両方にわたって分析された。
プロジェクトページはhttps://ucsc-vlaa.github.io/STAR-1。
関連論文リスト
- The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。
大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-17T16:57:56Z) - GuardReasoner: Towards Reasoning-based LLM Safeguards [63.53800124080227]
本稿では, LLM の新たなセーフガードである GuardReasoner を提案する。
GuardReasonerTrainデータセットは、117Kのサンプルと460Kの詳細な推論ステップで構成されています。
次に、ガードモデルの推論能力を解き放つための推論SFTを導入する。
このように、GuardReasonerはより良いパフォーマンス、説明可能性、一般化可能性を達成する。
論文 参考訳(メタデータ) (2025-01-30T17:06:06Z) - CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs [4.441767341563709]
5つの古典的安全シナリオと5種類の命令攻撃を統合した安全評価ベンチマークCFSafetyを導入する。
このテストセットは、大規模言語モデル(LLM)の自然言語生成能力を評価するために使用された。
その結果, GPT-4は安全性能に優れていたが, このモデルを含むLLMの安全性は改善が必要であることがわかった。
論文 参考訳(メタデータ) (2024-10-29T03:25:20Z) - LLMSecCode: Evaluating Large Language Models for Secure Coding [0.24999074238880484]
本研究の目的は、セキュアコーディング(SC)を促進するのに適した大規模言語モデル(LLM)の選択プロセスを改善することである。
SC機能を客観的に評価するために設計されたオープンソースの評価フレームワークであるLLMSecCodeを紹介する。
論文 参考訳(メタデータ) (2024-08-28T19:07:08Z) - CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference [29.55937864144965]
この研究は,大規模言語モデル(LLM)におけるマルチターン対話コアの安全性を初めて研究したものである。
私たちは14のカテゴリで1,400の質問のデータセットを作成しました。
LLaMA2-Chat-7bモデルでは56%、Mistral-7B-Instructモデルでは13.9%であった。
論文 参考訳(メタデータ) (2024-06-25T15:13:02Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。