Fugu-MT 論文翻訳(概要): Are Smarter LLMs Safer? Exploring Safety-Reasoning Trade-offs in Prompting and Fine-Tuning

論文の概要: Are Smarter LLMs Safer? Exploring Safety-Reasoning Trade-offs in Prompting and Fine-Tuning

arxiv url: http://arxiv.org/abs/2502.09673v1
Date: Thu, 13 Feb 2025 06:37:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 19:47:35.502001
Title: Are Smarter LLMs Safer? Exploring Safety-Reasoning Trade-offs in Prompting and Fine-Tuning
Title（参考訳）: よりスマートなLDMはより安全か? : プロンプティングとファインチューニングにおける安全推論のトレードオフを探る
Authors: Ang Li, Yichuan Mo, Mingjie Li, Yifei Wang, Yisen Wang,
Abstract要約: 大規模言語モデル (LLM) は様々なNLPベンチマークで顕著な成功を収めている。本研究では,LLMにおける推論と安全性の相互作用について検討する。推論能力が向上し、これまで見過ごされていた脆弱性に光を当てることによって生じる、潜伏する安全性のリスクを強調します。
参考スコア（独自算出の注目度）: 40.55486479495965
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable success across various NLP benchmarks. However, excelling in complex tasks that require nuanced reasoning and precise decision-making demands more than raw language proficiency--LLMs must reason, i.e., think logically, draw from past experiences, and synthesize information to reach conclusions and take action. To enhance reasoning abilities, approaches such as prompting and fine-tuning have been widely explored. While these methods have led to clear improvements in reasoning, their impact on LLM safety remains less understood. In this work, we investigate the interplay between reasoning and safety in LLMs. We highlight the latent safety risks that arise as reasoning capabilities improve, shedding light on previously overlooked vulnerabilities. At the same time, we explore how reasoning itself can be leveraged to enhance safety, uncovering potential mitigation strategies. By examining both the risks and opportunities in reasoning-driven LLM safety, our study provides valuable insights for developing models that are not only more capable but also more trustworthy in real-world deployments.
Abstract（参考訳）: 大規模言語モデル (LLM) は様々なNLPベンチマークで顕著な成功を収めている。しかし、未熟な推論と、生の言語の習熟度よりも正確な意思決定要求を必要とする複雑なタスクにおいて、LLMは理性、すなわち、論理的に考え、過去の経験から引き抜き、情報を合成し、結論に達し、行動を起こす必要がある。推論能力を高めるために、プロンプトや微調整といったアプローチが広く研究されている。これらの手法は推論の明確な改善につながったが、LLMの安全性への影響はいまだに理解されていない。本研究では,LLMにおける推論と安全性の相互作用について検討する。推論能力が向上し、これまで見過ごされていた脆弱性に光を当てることによって生じる、潜伏する安全性のリスクを強調します。同時に、安全性を高めるために推論自体をどのように活用できるかを探求し、潜在的な緩和戦略を明らかにする。推論駆動型LLM安全性のリスクと機会の両方を調べることで、我々の研究は、より有能であるだけでなく、現実のデプロイメントにおいてより信頼できるモデルを開発する上で、貴重な洞察を提供する。

関連論文リスト

Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文参考訳（メタデータ） (2025-09-29T07:41:09Z)
Safe-SAIL: Towards a Fine-grained Safety Landscape of Large Language Models via Sparse Autoencoder Interpretation Framework [31.278770676774325]
大規模言語モデル(LLM)内でのSAE機能を解釈するフレームワークであるSafe-SAILを提案する。提案手法は,SAEを最も優れた概念特異的解釈可能性で体系的に識別し,安全性関連ニューロンを説明し,解釈プロセスをスケールアップするための効率的な戦略を導入する。
論文参考訳（メタデータ） (2025-09-11T11:22:43Z)
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study [90.34190170330481]
大規模推論モデル(LRM)は数学やプログラミングのような推論集約的なタスクにおいて顕著な成功を収めた。しかし、その強化された推論能力は必ずしも安全性能の向上に必ずしも寄与しない。スーパーバイザード・ファイン・チューニング(Supervised Fine-Tuning)によるLEMの安全性向上に関する総合的な実証研究について述べる。
論文参考訳（メタデータ） (2025-05-21T11:45:29Z)
Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,LLM生成プロセスにクエリとレスポンスの安全反射を統合する新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。 R2Dは様々な攻撃を効果的に軽減し、全体的な安全性を改善し、LLMのジェイルブレイクに対する堅牢性を強化する上での安全性を意識した推論の可能性を強調している。
論文参考訳（メタデータ） (2025-02-18T15:48:46Z)
A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文参考訳（メタデータ） (2025-02-14T08:42:43Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
Trust & Safety of LLMs and LLMs in Trust & Safety [0.0]
本稿では,大規模言語モデルにおける信頼と安全性に関する現在の研究状況について考察する。信頼性と安全性が最優先の領域におけるLCMの利用の複雑さを掘り下げる。このレビューでは、信頼と安全においてLLMを使用するためのベストプラクティスに関する洞察を提供し、迅速な注入や脱獄攻撃といった新たなリスクについて調査する。
論文参考訳（メタデータ） (2024-12-03T03:10:12Z)
Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文参考訳（メタデータ） (2024-06-16T22:04:10Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices [4.927763944523323]
大規模言語モデル(LLM)は、自然言語処理(NLP)のランドスケープを大きく変えた。本研究は,5つのテーマの観点から,LLMに関するセキュリティとプライバシの懸念を徹底的に調査する。本稿は, LLMの安全性とリスク管理を強化するために, 今後の研究に期待できる道筋を提案する。
論文参考訳（メタデータ） (2024-03-19T07:10:58Z)
Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文参考訳（メタデータ） (2024-02-06T18:54:07Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。