論文の概要: Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation
- arxiv url: http://arxiv.org/abs/2501.17749v1
- Date: Wed, 29 Jan 2025 16:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:56.823514
- Title: Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation
- Title(参考訳): OpenAIのo3-miniの早期外部安全試験:事前配備評価から
- Authors: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura,
- Abstract要約: 大きな言語モデル(LLM)は、個人のプライバシを害し、バイアスを持続させ、誤情報を拡散するリスクを含む、特定のリスクを課す。
本稿では,モンドラゴン大学とセビリア大学の研究者による,OpenAIの新しいo3-mini LLMに関する外部安全試験経験について報告する。
- 参考スコア(独自算出の注目度): 6.105030666773317
- License:
- Abstract: Large Language Models (LLMs) have become an integral part of our daily lives. However, they impose certain risks, including those that can harm individuals' privacy, perpetuate biases and spread misinformation. These risks highlight the need for robust safety mechanisms, ethical guidelines, and thorough testing to ensure their responsible deployment. Safety of LLMs is a key property that needs to be thoroughly tested prior the model to be deployed and accessible to the general users. This paper reports the external safety testing experience conducted by researchers from Mondragon University and University of Seville on OpenAI's new o3-mini LLM as part of OpenAI's early access for safety testing program. In particular, we apply our tool, ASTRAL, to automatically and systematically generate up to date unsafe test inputs (i.e., prompts) that helps us test and assess different safety categories of LLMs. We automatically generate and execute a total of 10,080 unsafe test input on a early o3-mini beta version. After manually verifying the test cases classified as unsafe by ASTRAL, we identify a total of 87 actual instances of unsafe LLM behavior. We highlight key insights and findings uncovered during the pre-deployment external testing phase of OpenAI's latest LLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は私たちの日常生活の不可欠な部分になっています。
しかし、個人のプライバシを害し、バイアスを持続させ、誤報を広めることを含む、特定のリスクを課す。
これらのリスクは、ロバストな安全メカニズム、倫理的ガイドライン、責任あるデプロイメントを保証するための徹底したテストの必要性を強調します。
LLMの安全性は、モデルをデプロイする前に徹底的にテストし、一般ユーザにアクセスできるようにするための重要な特性である。
本稿では,モンドラゴン大学とセビリア大学の研究者による,OpenAIの早期安全試験プログラムの一環として,OpenAIの新しいo3-mini LLMに関する外部安全試験経験について報告する。
特に、当社のツールASTRALを用いて、LLMのさまざまな安全性カテゴリのテストおよび評価を支援する、最新の安全でないテストインプット(プロンプト)を自動かつ体系的に生成する。
初期のo3-miniベータバージョンで、合計10,080の安全でないテストインプットを自動的に生成し、実行します。
ASTRALにより安全でないと判定された検査症例を手作業で検証した後、安全でないLCM行動の87例を同定した。
OpenAIの最新LLMのデプロイ前の外部テストフェーズで明らかになった重要な洞察と発見を強調します。
関連論文リスト
- Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - ASTRAL: Automated Safety Testing of Large Language Models [6.1050306667733185]
大規模言語モデル(LLM)は、人間のような洗練されたコンテンツを理解し、生成する能力によって最近注目を集めている。
LLMの安全性をテストするためのテストケース(即ちプロンプト)の生成と実行を自動化するツールであるASTRALを提案する。
論文 参考訳(メタデータ) (2025-01-28T18:25:11Z) - SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - TroubleLLM: Align to Red Team Expert [36.05032354083237]
大きな言語モデル(LLM)は、望ましくない安全性の問題を示すのに潜在的に有害である。
安全問題に対する制御可能なテストプロンプトを生成するために,最初のLLMであるTroubleLLMを提案する。
論文 参考訳(メタデータ) (2024-02-28T03:40:46Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models [15.896567445646784]
このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTests(SST)を紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
いくつかのモデルは単一の安全でない応答を与えないが、ほとんどのモデルは20%以上のプロンプトに対して安全でない応答を与え、極端に50%以上の安全でない応答を与える。
論文 参考訳(メタデータ) (2023-11-14T18:33:43Z) - Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。
これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。
ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文 参考訳(メタデータ) (2023-09-25T17:08:02Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。