Fugu-MT 論文翻訳(概要): Towards Safer Generative Language Models: A Survey on Safety Risks, Evaluations, and Improvements

論文の概要: Towards Safer Generative Language Models: A Survey on Safety Risks, Evaluations, and Improvements

arxiv url: http://arxiv.org/abs/2302.09270v3
Date: Thu, 30 Nov 2023 06:39:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 20:59:34.366821
Title: Towards Safer Generative Language Models: A Survey on Safety Risks, Evaluations, and Improvements
Title（参考訳）: より安全な生成言語モデルに向けて:安全性のリスク、評価、改善に関する調査
Authors: Jiawen Deng, Jiale Cheng, Hao Sun, Zhexin Zhang, Minlie Huang
Abstract要約: 本調査では,大規模モデルに関する安全研究の枠組みについて述べる。まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
参考スコア（独自算出の注目度）: 76.80453043969209
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As generative large model capabilities advance, safety concerns become more pronounced in their outputs. To ensure the sustainable growth of the AI ecosystem, it's imperative to undertake a holistic evaluation and refinement of associated safety risks. This survey presents a framework for safety research pertaining to large models, delineating the landscape of safety risks as well as safety evaluation and improvement methods. We begin by introducing safety issues of wide concern, then delve into safety evaluation methods for large models, encompassing preference-based testing, adversarial attack approaches, issues detection, and other advanced evaluation methods. Additionally, we explore the strategies for enhancing large model safety from training to deployment, highlighting cutting-edge safety approaches for each stage in building large models. Finally, we discuss the core challenges in advancing towards more responsible AI, including the interpretability of safety mechanisms, ongoing safety issues, and robustness against malicious attacks. Through this survey, we aim to provide clear technical guidance for safety researchers and encourage further study on the safety of large models.
Abstract（参考訳）: 生成的大モデル能力が向上するにつれて、その出力において安全性に関する懸念がより顕著になる。 AIエコシステムの持続可能な成長を保証するため、関連する安全リスクの総合的な評価と改善を実施することが不可欠である。本調査では, 大規模モデルに関する安全研究の枠組みとして, 安全リスクの展望と安全性評価, 改善手法について述べる。まず,大規模モデルの安全性評価手法を探索し,優先性に基づくテスト,敵攻撃アプローチ,問題検出,その他の高度な評価手法について検討する。さらに,トレーニングからデプロイメントまでの大規模モデル安全性向上戦略について検討し,大規模モデル構築の各ステージにおける最先端の安全性アプローチに注目した。最後に、安全メカニズムの解釈可能性、進行中の安全性問題、悪意のある攻撃に対する堅牢性など、より責任のあるAIに向けて進む上での課題について論じる。本調査は,安全研究者に明確な技術指導を提供し,大規模モデルの安全性に関するさらなる研究を奨励することを目的とする。

関連論文リスト

SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。 LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文参考訳（メタデータ） (2025-05-22T03:46:03Z)
Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [30.774446187857475]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文参考訳（メタデータ） (2025-05-10T06:59:36Z)
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement [73.0700818105842]
我々は、AI安全のための代表的攻撃、防衛、評価方法論を統合する統合されたフレームワークとツールキットであるAISafetyLabを紹介する。 AISafetyLabには直感的なインターフェースがあり、開発者はシームレスにさまざまなテクニックを適用できる。我々はヴィクナに関する実証的研究を行い、異なる攻撃戦略と防衛戦略を分析し、それらの比較効果に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2025-02-24T02:11:52Z)
Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文参考訳（メタデータ） (2025-02-04T09:31:54Z)
Safety at Scale: A Comprehensive Survey of Large Model Safety [298.05093528230753]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文参考訳（メタデータ） (2025-02-02T05:14:22Z)
Building Trust: Foundations of Security, Safety and Transparency in AI [0.23301643766310373]
我々は、問題の追跡、修復、AIモデルのライフサイクルとオーナシッププロセスの明らかな欠如といった課題を強調しながら、現在のセキュリティと安全性のシナリオをレビューする。本稿では,AIモデルの開発と運用において,より標準化されたセキュリティ,安全性,透明性を実現するための基礎的要素を提供する。
論文参考訳（メタデータ） (2024-11-19T06:55:57Z)
Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文参考訳（メタデータ） (2024-11-04T17:41:25Z)
EAIRiskBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [47.69642609574771]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。 EAIRiskBenchは、EAIシナリオにおける自動物理的リスクアセスメントのための新しいフレームワークである。
論文参考訳（メタデータ） (2024-08-08T13:19:37Z)
Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文参考訳（メタデータ） (2024-07-31T17:59:24Z)
Sok: Comprehensive Security Overview, Challenges, and Future Directions of Voice-Controlled Systems [10.86045604075024]
Voice Control Systemsをスマートデバイスに統合することで、セキュリティの重要性が強調される。現在の研究では、VCSの脆弱性が多数発見され、ユーザのプライバシとセキュリティに重大なリスクが提示されている。本稿では,VCSの階層的モデル構造を導入し,既存の文献を体系的に分類・分析するための新しいレンズを提供する。我々は,その技術的原則に基づいて攻撃を分類し,その方法,目標,ベクトル,行動など,さまざまな属性を徹底的に評価する。
論文参考訳（メタデータ） (2024-05-27T12:18:46Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。