論文の概要: Athena: Safe Autonomous Agents with Verbal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2408.11021v1
- Date: Tue, 20 Aug 2024 17:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 12:45:00.602985
- Title: Athena: Safe Autonomous Agents with Verbal Contrastive Learning
- Title(参考訳): Athena: 言語コントラスト学習による安全な自律エージェント
- Authors: Tanmana Sadhu, Ali Pesaranghader, Yanan Chen, Dong Hoon Yi,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクを実行するために言語ベースのエージェントとして利用されてきた。
本研究では,言語コントラスト学習の概念を活用したアテナフレームワークを提案する。
このフレームワークには、エージェントを誘導するクオリティ機構も組み込まれており、各ステップにおけるリスクのあるアクションを防ぐ。
- 参考スコア(独自算出の注目度): 3.102303947219617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to emergent capabilities, large language models (LLMs) have been utilized as language-based agents to perform a variety of tasks and make decisions with an increasing degree of autonomy. These autonomous agents can understand high-level instructions, interact with their environments, and execute complex tasks using a selection of tools available to them. As the capabilities of the agents expand, ensuring their safety and trustworthiness becomes more imperative. In this study, we introduce the Athena framework which leverages the concept of verbal contrastive learning where past safe and unsafe trajectories are used as in-context (contrastive) examples to guide the agent towards safety while fulfilling a given task. The framework also incorporates a critiquing mechanism to guide the agent to prevent risky actions at every step. Furthermore, due to the lack of existing benchmarks on the safety reasoning ability of LLM-based agents, we curate a set of 80 toolkits across 8 categories with 180 scenarios to provide a safety evaluation benchmark. Our experimental evaluation, with both closed- and open-source LLMs, indicates verbal contrastive learning and interaction-level critiquing improve the safety rate significantly.
- Abstract(参考訳): 創発的な能力のため、言語ベースのエージェントとして大規模言語モデル(LLM)が利用され、様々なタスクを実行し、より自律的な意思決定が可能になった。
これらの自律エージェントは、ハイレベルな命令を理解し、環境と対話し、利用可能なツールの選択を使用して複雑なタスクを実行することができる。
エージェントの能力が拡大するにつれて、安全性と信頼性の確保がより不可欠になる。
本研究では,過去の安全トラジェクトリを文脈内(コントラスト内)の例として用い,与えられたタスクを遂行しながらエージェントを安全に導くという,言語的コントラスト学習の概念を活用するアテナフレームワークを提案する。
このフレームワークには、エージェントを誘導するクオリティ機構も組み込まれており、各ステップにおけるリスクのあるアクションを防ぐ。
さらに, LLMをベースとしたエージェントの安全性推論能力に関する既存のベンチマークが欠如しているため, 安全評価ベンチマークを提供するため, 8つのカテゴリに80のツールキットセットを180のシナリオでキュレートした。
閉鎖型およびオープンソース LLM を併用した実験により,言語的コントラスト学習と対話レベルの基準により安全性が著しく向上した。
関連論文リスト
- Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Security of AI Agents [5.468745160706382]
AIエージェントの研究と開発は、大規模言語モデルによって促進されている。
本稿では,システムセキュリティの観点から,これらの脆弱性を詳細に識別し,記述する。
本報告では, 各脆弱性に対応する防御機構について, 厳密な設計と実験を行い, その生存性を評価する。
論文 参考訳(メタデータ) (2024-06-12T23:16:45Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z) - On Assessing The Safety of Reinforcement Learning algorithms Using
Formal Methods [6.2822673562306655]
敵の訓練、敵の検知、堅牢な学習といった安全メカニズムは、エージェントが配備されるすべての障害に常に適応するとは限らない。
したがって,エージェントが直面する学習課題に適応した新しいソリューションを提案する必要がある。
我々は、対向的摂動に直面した際のエージェントのポリシーを改善するために、報酬形成とQ-ラーニングアルゴリズムを防御機構として使用する。
論文 参考訳(メタデータ) (2021-11-08T23:08:34Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。