論文の概要: SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents
- arxiv url: http://arxiv.org/abs/2505.23559v1
- Date: Thu, 29 May 2025 15:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.946834
- Title: SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents
- Title(参考訳): 安全科学者 : LLMエージェントによるリスクを意識した科学的発見を目指して
- Authors: Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia Liu, Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You,
- Abstract要約: 我々は、AI駆動科学探査における安全性と倫理的責任を高める革新的なAI科学者フレームワークであるtextbfSafeScientistを紹介する。
SafeScientistは倫理的に不適切な、あるいはリスクの高いタスクを積極的に拒否し、研究プロセスを通して安全を厳格に強調する。
我々は、科学的な文脈でAIの安全性を評価するために特別に設計された新しいベンチマークである textbfSciSafetyBenchを提案する。
- 参考スコア(独自算出の注目度): 11.817130554581436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language model (LLM) agents have significantly accelerated scientific discovery automation, yet concurrently raised critical ethical and safety concerns. To systematically address these challenges, we introduce \textbf{SafeScientist}, an innovative AI scientist framework explicitly designed to enhance safety and ethical responsibility in AI-driven scientific exploration. SafeScientist proactively refuses ethically inappropriate or high-risk tasks and rigorously emphasizes safety throughout the research process. To achieve comprehensive safety oversight, we integrate multiple defensive mechanisms, including prompt monitoring, agent-collaboration monitoring, tool-use monitoring, and an ethical reviewer component. Complementing SafeScientist, we propose \textbf{SciSafetyBench}, a novel benchmark specifically designed to evaluate AI safety in scientific contexts, comprising 240 high-risk scientific tasks across 6 domains, alongside 30 specially designed scientific tools and 120 tool-related risk tasks. Extensive experiments demonstrate that SafeScientist significantly improves safety performance by 35\% compared to traditional AI scientist frameworks, without compromising scientific output quality. Additionally, we rigorously validate the robustness of our safety pipeline against diverse adversarial attack methods, further confirming the effectiveness of our integrated approach. The code and data will be available at https://github.com/ulab-uiuc/SafeScientist. \textcolor{red}{Warning: this paper contains example data that may be offensive or harmful.}
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントの最近の進歩は、科学的発見の自動化を著しく加速させたが、同時に重要な倫理的・安全上の懸念を提起している。
これらの課題に体系的に対処するために,我々は,AI駆動科学探査における安全性と倫理的責任を高めるように設計された,革新的なAI科学者フレームワークである‘textbf{SafeScientist} を紹介した。
SafeScientistは倫理的に不適切な、あるいはリスクの高いタスクを積極的に拒否し、研究プロセスを通して安全を厳格に強調する。
包括的安全監視を実現するため, 即時監視, エージェント協調監視, ツール利用監視, 倫理的レビュアーコンポーネントなど, 複数の防御機構を統合した。
SafeScientistを補完し、科学的な文脈でAIの安全性を評価するために特別に設計された新しいベンチマークである \textbf{SciSafetyBench} を提案する。
大規模な実験により、SafeScientistは、科学的なアウトプットの品質を損なうことなく、従来のAI科学者フレームワークと比較して、安全性を35%向上させることが示された。
さらに, 多様な敵攻撃手法に対する安全パイプラインの堅牢性を厳格に検証し, 統合的アプローチの有効性を確認した。
コードとデータはhttps://github.com/ulab-uiuc/SafeScientist.comから入手できる。
textcolor{red}{Warning: 攻撃的であるか有害である可能性のあるサンプルデータを含む。
※
関連論文リスト
- Report on NSF Workshop on Science of Safe AI [75.96202715567088]
機械学習の新たな進歩は、社会問題に対する技術ベースのソリューションを開発する新たな機会につながっている。
AIの約束を果たすためには、正確でパフォーマンスが高く、安全で信頼性の高いAIベースのシステムを開発する方法に取り組む必要がある。
本報告はワークショップの安全性の異なる側面に対処した作業グループにおける議論の結果である。
論文 参考訳(メタデータ) (2025-06-24T18:55:29Z) - SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge [11.63268709958876]
SOSBenchは、大規模な言語モデルのための規制対象のハザード中心のベンチマークである。
化学、生物学、医学、薬理学、物理学、心理学の6つのリスクの高い分野をカバーしている。
SOSBenchを用いた統合評価フレームワークにおけるフロンティアモデルの評価を行った。
論文 参考訳(メタデータ) (2025-05-27T17:47:08Z) - LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [78.99703366417661]
大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。
このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こす高リスクな実験室環境では特に危険である。
実験室安全ベンチマーク (LabSafety Bench) を提案し, 潜在的な危険を識別し, リスクを評価し, 実験室環境における安全でない行動の結果を予測する。
論文 参考訳(メタデータ) (2024-10-18T05:21:05Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Control Risk for Potential Misuse of Artificial Intelligence in Science [85.91232985405554]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。
化学科学における誤用の実例を取り上げる。
我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:50:57Z) - OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning
Research [3.0536277689386453]
SafeRL研究の迅速化を目的とした基礎的枠組みを提案する。
我々のフレームワークは、異なるRLドメインにまたがるアルゴリズムの配列を含み、安全要素に重点を置いている。
論文 参考訳(メタデータ) (2023-05-16T09:22:14Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。