論文の概要: Foveate, Attribute, and Rationalize: Towards Safe and Trustworthy AI
- arxiv url: http://arxiv.org/abs/2212.09667v1
- Date: Mon, 19 Dec 2022 17:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:25:56.499204
- Title: Foveate, Attribute, and Rationalize: Towards Safe and Trustworthy AI
- Title(参考訳): foveate, attribute, and rationalize: 安全で信頼できるaiに向けて
- Authors: Alex Mei, Sharon Levy, William Yang Wang
- Abstract要約: 行動可能な物理的害を含む言語である、安全でないテキストは、特に関心のある領域である。
安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しい枠組みを提案する。
SafeTextデータセットを用いて,安全性の分類精度を5.29ポイント向上させる。
- 参考スコア(独自算出の注目度): 76.28956947107372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Users' physical safety is an increasing concern as the market for intelligent
systems continues to grow, where unconstrained systems may recommend users
dangerous actions that can lead to serious injury. Covertly unsafe text,
language that contains actionable physical harm, but requires further reasoning
to identify such harm, is an area of particular interest, as such texts may
arise from everyday scenarios and are challenging to detect as harmful.
Qualifying the knowledge required to reason about the safety of various texts
and providing human-interpretable rationales can shed light on the risk of
systems to specific user groups, helping both stakeholders manage the risks of
their systems and policymakers to provide concrete safeguards for consumer
safety. We propose FARM, a novel framework that leverages external knowledge
for trustworthy rationale generation in the context of safety. In particular,
FARM foveates on missing knowledge in specific scenarios, retrieves this
knowledge with attribution to trustworthy sources, and uses this to both
classify the safety of the original text and generate human-interpretable
rationales, combining critically important qualities for sensitive domains such
as user safety. Furthermore, FARM obtains state-of-the-art results on the
SafeText dataset, improving safety classification accuracy by 5.29 points.
- Abstract(参考訳): 知的システムの市場が成長を続けるにつれ、ユーザの身体的安全が懸念されるようになり、制約のないシステムは、深刻な怪我につながる危険なアクションをユーザに推奨する可能性がある。
行動可能な物理的危害を含むが、そのような害を識別するためにさらなる推論を必要とする言語である、包括的に安全でないテキストは、日常的なシナリオから生じる可能性があるため、特に関心のある分野である。
さまざまなテキストの安全性を判断し、人間解釈可能な根拠を提供するために必要な知識は、特定のユーザグループに対するシステムのリスクに光を当て、利害関係者がシステムと政策立案者のリスクを管理し、消費者安全のための具体的な安全対策を提供するのに役立つ。
安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。
特にファームは、特定のシナリオにおける知識の欠如に焦点をあて、信頼に値する情報源への帰属とともにこの知識を検索し、原文の安全性を分類し、ユーザー安全性などの繊細な領域において重要な品質を組み合わせるために、人間解釈可能な根拠を生成する。
さらに、FARMはSafeTextデータセットの最先端結果を取得し、安全性の分類精度を5.29ポイント向上する。
関連論文リスト
- Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [67.38554763406098]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、安全を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - The Last Decade in Review: Tracing the Evolution of Safety Assurance
Cases through a Comprehensive Bibliometric Analysis [7.431812376079826]
安全保証は、自動車、航空宇宙、原子力など、様々な分野において最重要事項である。
安全保証ケースを使用することで、生成されたシステム機能の正しさを検証することができ、システム障害を防止することができる。
論文 参考訳(メタデータ) (2023-11-13T17:34:23Z) - A Counterfactual Safety Margin Perspective on the Scoring of Autonomous
Vehicles' Riskiness [52.27309191283943]
本稿では,異なるAVの行動のリスクを評価するためのデータ駆動型フレームワークを提案する。
本稿では,衝突を引き起こす可能性のある名目行動から最小限の偏差を示す,対実的安全マージンの概念を提案する。
論文 参考訳(メタデータ) (2023-08-02T09:48:08Z) - Safety Margins for Reinforcement Learning [74.13100479426424]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - SafeText: A Benchmark for Exploring Physical Safety in Language Models [62.810902375154136]
テキスト生成およびコモンセンス推論タスク用に設計された各種モデルのコモンセンス物理安全性について検討する。
最先端の大規模言語モデルは、安全でないテキストの生成に影響を受けやすく、安全でないアドバイスを拒否するのが困難であることがわかった。
論文 参考訳(メタデータ) (2022-10-18T17:59:31Z) - Mitigating Covertly Unsafe Text within Natural Language Systems [55.26364166702625]
制御されていないシステムは、怪我や致命的な結果につながるレコメンデーションを生成する。
本稿では,身体的危害につながる可能性のあるテキストのタイプを識別し,特に未発見のカテゴリを確立する。
論文 参考訳(メタデータ) (2022-10-17T17:59:49Z) - Towards a Responsible AI Development Lifecycle: Lessons From Information
Security [0.0]
本稿では,人工知能システムを開発するためのフレームワークを提案する。
特に,脅威モデリング,設計レビュー,浸透試験,インシデント応答の概念を活用することを提案する。
論文 参考訳(メタデータ) (2022-03-06T13:03:58Z) - SoK: A Framework for Unifying At-Risk User Research [18.216554583064063]
リスクの高いユーザは,ディジタルセキュリティやプライバシ,安全上の脅威を経験する人たちです。
本稿では,85論文の多岐にわたるメタ分析に基づいて,リスクの高いユーザを推論する枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-13T22:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。