論文の概要: InvThink: Towards AI Safety via Inverse Reasoning
- arxiv url: http://arxiv.org/abs/2510.01569v1
- Date: Thu, 02 Oct 2025 01:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.93719
- Title: InvThink: Towards AI Safety via Inverse Reasoning
- Title(参考訳): InvThink: 逆推論によるAI安全性を目指して
- Authors: Yubin Kim, Taehan Kim, Eugene Park, Chunjong Park, Cynthia Breazeal, Daniel McDuff, Hae Won Park,
- Abstract要約: InvThinkは、大きな言語モデルに、逆思考の能力を与える。
i) 安全性の改善は, 既存の安全手法と比較して, モデルサイズによるスケーリングがより強力であることを示す。
InvThinkは、外向き(医療、金融、法律)やエージェント的(ブラックメール、殺人)のリスクシナリオを含む高い領域で優れており、有害反応の最大15.7%の減少を達成している。
- 参考スコア(独自算出の注目度): 23.940337534762563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present InvThink, a simple yet powerful approach that gives large language models (LLMs) the capability of inverse thinking: reasoning through failure modes before generating responses. Unlike existing safety alignment methods that optimize directly for safe response, InvThink instructs models to 1) enumerate potential harms, 2) analyze their consequences, and 3) generate safe outputs that proactively avoid these risks. Our method reveals three key findings: (i) safety improvements show stronger scaling with model size compared to existing safety methods. (ii) InvThink mitigates safety tax; by training models to systematically consider failure modes, it preserves general reasoning capabilities on standard benchmarks. (iii) beyond general safety tasks, InvThink excels in high-stakes domains including external-facing (medicine, finance, law) and agentic (blackmail, murder) risk scenarios, achieving up to 15.7% reduction in harmful responses compared to baseline methods like SafetyPrompt. We further implement InvThink via supervised fine-tuning, and reinforcement learning across three LLM families. These results suggest that inverse reasoning provides a scalable and generalizable path toward safer, more capable language models.
- Abstract(参考訳): InvThinkは、大きな言語モデル(LLM)に逆思考の能力を与える、シンプルだが強力なアプローチである。
安全な応答を直接最適化する既存の安全アライメント方法とは異なり、InvThinkはモデルを指示する。
1)潜在的な害を列挙する。
2【結果の分析】
3)これらのリスクを積極的に回避する安全なアウトプットを生成する。
私たちの方法では3つの重要な発見が判明した。
(i) 既存の安全手法と比較して, モデルサイズによるスケーリングが強かった。
(ii) InvThinkは安全性税を緩和する; 障害モードを体系的に考慮するためのトレーニングモデルにより、標準ベンチマークの一般的な推論機能を保持する。
(iii)一般的な安全業務の他に、InvThinkは、外部対応(医療、金融、法律)やエージェント(ブラックメール、殺人)のリスクシナリオを含む高リスク領域に特有であり、セーフティプロンプトのような基準手法と比較して15.7%の有害反応の削減を実現している。
さらに、教師付き微調整と強化学習により、3つのLLMファミリーにまたがってInvThinkを実装した。
これらの結果は、逆推論がより安全な、より有能な言語モデルへのスケーラブルで一般化可能な経路を提供することを示唆している。
関連論文リスト
- SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning [10.844235123282056]
視覚言語アクションモデル(VLA)は、汎用的なロボットポリシーとしての可能性を示している。
これらのモデルは、環境、ロボット自身、人間への危害のリスクを含む、現実世界の展開中に極端な安全上の課題を生じさせる。
我々は、ISA(Integrated safety approach)を探求し、安全要件を体系的にモデル化し、多様な安全でない振る舞いを積極的に引き出すことによって、この問題に対処する。
論文 参考訳(メタデータ) (2025-03-05T13:16:55Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。