Fugu-MT 論文翻訳(概要): Output Length Effect on DeepSeek-R1's Safety in Forced Thinking

論文の概要: Output Length Effect on DeepSeek-R1's Safety in Forced Thinking

arxiv url: http://arxiv.org/abs/2503.01923v1
Date: Sun, 02 Mar 2025 06:29:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:38.39547
Title: Output Length Effect on DeepSeek-R1's Safety in Forced Thinking
Title（参考訳）: 強制思考におけるDeepSeek-R1の安全性に及ぼす出力長の影響
Authors: Xuying Li, Zhuo Li, Yuji Kosuga, Victor Bian,
Abstract要約: 本研究では,DeepSeek-R1のロバスト性に及ぼす出力長の影響について検討した。我々は、様々な敵のプロンプトにまたがる応答を分析し、より長いアウトプットは自己補正によって安全性を向上させるが、特定の攻撃タイプは、より長い世代を悪用する。
参考スコア（独自算出の注目度）: 2.8626097661711394
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated strong reasoning capabilities, but their safety under adversarial conditions remains a challenge. This study examines the impact of output length on the robustness of DeepSeek-R1, particularly in Forced Thinking scenarios. We analyze responses across various adversarial prompts and find that while longer outputs can improve safety through self-correction, certain attack types exploit extended generations. Our findings suggest that output length should be dynamically controlled to balance reasoning effectiveness and security. We propose reinforcement learning-based policy adjustments and adaptive token length regulation to enhance LLM safety.
Abstract（参考訳）: 大規模言語モデル(LLM)は強力な推論能力を示しているが、敵対的な条件下での安全性は依然として課題である。本研究では,DeepSeek-R1の強靭性,特に強制思考における出力長の影響について検討する。我々は、様々な敵のプロンプトにまたがる応答を分析し、より長いアウトプットは自己補正によって安全性を向上させるが、特定の攻撃タイプは、より長い世代を悪用する。この結果から, 出力長を動的に制御し, 推論の有効性と安全性のバランスをとることが示唆された。 LLMの安全性を高めるために,強化学習に基づくポリシー調整と適応トークン長制御を提案する。

関連論文リスト

ReasoningGuard: Safeguarding Large Reasoning Models with Inference-time Safety Aha Moments [18.198349215500183]
ReasoningGuardは、タイムリーな安全アハモーメントを注入し、無害な理由づけプロセスを実行します。弊社のアプローチは、既存の7つの安全ガードを上回り、最先端の安全防衛を達成している。
論文参考訳（メタデータ） (2025-08-06T08:35:10Z)
ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。 LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。推論に基づく安全アライメントフレームワークARMORを提案する。
論文参考訳（メタデータ） (2025-07-14T09:05:54Z)
Should LLM Safety Be More Than Refusing Harmful Instructions? [6.5137518437747]
本稿では,Large Language Models (LLM) の長文分散(暗号化)テキストに対する振る舞いを体系的に評価する。 LLMの安全性を評価するための2次元フレームワークを提案する。暗号を復号する能力を持つモデルは、不正な一般化攻撃の影響を受けやすいことを実証する。
論文参考訳（メタデータ） (2025-06-03T05:00:12Z)
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning [80.26953590563232]
我々は、長文推論RLのパラダイムを定式化し、最適な訓練効率と不安定な最適化プロセスにおける重要な課題を特定する。 QwenLong-L1 は,コンテクストをプログレッシブ・コンテクスト・スケーリングにより長文シナリオに適応させるフレームワークである。 QwenLong-L1-32B は OpenAI-o3-mini や Qwen3-235B-A22B といったフラグシップ LRM よりも優れていた。
論文参考訳（メタデータ） (2025-05-23T09:31:55Z)
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study [90.34190170330481]
大規模推論モデル(LRM)は数学やプログラミングのような推論集約的なタスクにおいて顕著な成功を収めた。しかし、その強化された推論能力は必ずしも安全性能の向上に必ずしも寄与しない。スーパーバイザード・ファイン・チューニング(Supervised Fine-Tuning)によるLEMの安全性向上に関する総合的な実証研究について述べる。
論文参考訳（メタデータ） (2025-05-21T11:45:29Z)
ERPO: Advancing Safety Alignment via Ex-Ante Reasoning Preference Optimization [36.609297811592185]
元Ante Reasoning Preference Optimization (ERPO)は、大規模言語モデルのための新しい安全アライメントフレームワークである。提案手法は,まず,教師付き微調整(SFT)による推定モデルと,直接選好最適化(DPO)による安全性,有用性,効率性の向上,および,長さ制御された反復選好最適化戦略による推論遅延の緩和の3段階からなる。
論文参考訳（メタデータ） (2025-04-03T16:07:38Z)
Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文参考訳（メタデータ） (2025-03-05T18:01:05Z)
Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,LLM生成プロセスにクエリとレスポンスの安全反射を統合する新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。 R2Dは様々な攻撃を効果的に軽減し、全体的な安全性を改善し、LLMのジェイルブレイクに対する堅牢性を強化する上での安全性を意識した推論の可能性を強調している。
論文参考訳（メタデータ） (2025-02-18T15:48:46Z)
The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文参考訳（メタデータ） (2025-02-18T09:06:07Z)
SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文参考訳（メタデータ） (2025-02-17T16:57:56Z)
Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.476222570886483]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。 LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文参考訳（メタデータ） (2024-10-09T12:09:30Z)
SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。 6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2024-02-19T06:58:42Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。価値に基づく政策段階の深層強化学習(DRL)について考察する。また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文参考訳（メタデータ） (2021-12-16T16:53:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。