Fugu-MT 論文翻訳(概要): Foveate, Attribute, and Rationalize: Towards Safe and Trustworthy AI

論文の概要: Foveate, Attribute, and Rationalize: Towards Safe and Trustworthy AI

arxiv url: http://arxiv.org/abs/2212.09667v1
Date: Mon, 19 Dec 2022 17:51:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 14:25:56.499204
Title: Foveate, Attribute, and Rationalize: Towards Safe and Trustworthy AI
Title（参考訳）: foveate, attribute, and rationalize: 安全で信頼できるaiに向けて
Authors: Alex Mei, Sharon Levy, William Yang Wang
Abstract要約: 行動可能な物理的害を含む言語である、安全でないテキストは、特に関心のある領域である。安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しい枠組みを提案する。 SafeTextデータセットを用いて,安全性の分類精度を5.29ポイント向上させる。
参考スコア（独自算出の注目度）: 76.28956947107372
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Users' physical safety is an increasing concern as the market for intelligent systems continues to grow, where unconstrained systems may recommend users dangerous actions that can lead to serious injury. Covertly unsafe text, language that contains actionable physical harm, but requires further reasoning to identify such harm, is an area of particular interest, as such texts may arise from everyday scenarios and are challenging to detect as harmful. Qualifying the knowledge required to reason about the safety of various texts and providing human-interpretable rationales can shed light on the risk of systems to specific user groups, helping both stakeholders manage the risks of their systems and policymakers to provide concrete safeguards for consumer safety. We propose FARM, a novel framework that leverages external knowledge for trustworthy rationale generation in the context of safety. In particular, FARM foveates on missing knowledge in specific scenarios, retrieves this knowledge with attribution to trustworthy sources, and uses this to both classify the safety of the original text and generate human-interpretable rationales, combining critically important qualities for sensitive domains such as user safety. Furthermore, FARM obtains state-of-the-art results on the SafeText dataset, improving safety classification accuracy by 5.29 points.
Abstract（参考訳）: 知的システムの市場が成長を続けるにつれ、ユーザの身体的安全が懸念されるようになり、制約のないシステムは、深刻な怪我につながる危険なアクションをユーザに推奨する可能性がある。行動可能な物理的危害を含むが、そのような害を識別するためにさらなる推論を必要とする言語である、包括的に安全でないテキストは、日常的なシナリオから生じる可能性があるため、特に関心のある分野である。さまざまなテキストの安全性を判断し、人間解釈可能な根拠を提供するために必要な知識は、特定のユーザグループに対するシステムのリスクに光を当て、利害関係者がシステムと政策立案者のリスクを管理し、消費者安全のための具体的な安全対策を提供するのに役立つ。安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。特にファームは、特定のシナリオにおける知識の欠如に焦点をあて、信頼に値する情報源への帰属とともにこの知識を検索し、原文の安全性を分類し、ユーザー安全性などの繊細な領域において重要な品質を組み合わせるために、人間解釈可能な根拠を生成する。さらに、FARMはSafeTextデータセットの最先端結果を取得し、安全性の分類精度を5.29ポイント向上する。

関連論文リスト

SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge [11.63268709958876]
SOSBenchは、大規模な言語モデルのための規制対象のハザード中心のベンチマークである。化学、生物学、医学、薬理学、物理学、心理学の6つのリスクの高い分野をカバーしている。 SOSBenchを用いた統合評価フレームワークにおけるフロンティアモデルの評価を行った。
論文参考訳（メタデータ） (2025-05-27T17:47:08Z)
SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。 AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文参考訳（メタデータ） (2025-05-23T10:56:06Z)
AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文参考訳（メタデータ） (2025-02-19T05:58:52Z)
Assessing confidence in frontier AI safety cases [37.839615078345886]
安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
論文参考訳（メタデータ） (2025-02-09T06:35:11Z)
Open Problems in Machine Unlearning for AI Safety [61.43515658834902]
特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
論文参考訳（メタデータ） (2025-01-09T03:59:10Z)
Usage Governance Advisor: From Intent to AI Governance [4.49852442764084]
AIシステムの安全性を評価することは、それらをデプロイする組織にとって、厳しい関心事である。本稿では,半構造化ガバナンス情報を作成するユーザガバナンスアドバイザを提案する。
論文参考訳（メタデータ） (2024-12-02T20:36:41Z)
Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文参考訳（メタデータ） (2024-11-04T17:41:25Z)
SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。 AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文参考訳（メタデータ） (2024-10-22T03:38:37Z)
Elevating Software Trust: Unveiling and Quantifying the Risk Landscape [9.428116807615407]
SAFER (Software Analysis Framework for Evaluating Risk) と呼ばれるリスク評価フレームワークを提案する。このフレームワークは、ソフトウェアサプライチェーンのセキュリティリスクを定量化する動的でデータ駆動で適応可能なプロセスの必要性に基づいている。以上の結果から,SAFERは主観性を軽減し,動的データ駆動重みとセキュリティリスクスコアを取得することが示唆された。
論文参考訳（メタデータ） (2024-08-06T00:50:08Z)
Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses [42.136793654338106]
モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
論文参考訳（メタデータ） (2024-07-02T16:19:25Z)
Cross-Modality Safety Alignment [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文参考訳（メタデータ） (2024-06-21T16:14:15Z)
Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching [77.36097118561057]
textscSafePatchingは包括的で効率的なPSAのための新しいフレームワークである。 textscSafePatchingはベースラインメソッドよりも包括的で効率的なPSAを実現する。
論文参考訳（メタデータ） (2024-05-22T16:51:07Z)
Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal [0.0]
本稿では,従来のシステムにおけるリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。 3つの主要株主グループに対する脅威もマップ化しています。
論文参考訳（メタデータ） (2024-03-20T05:17:22Z)
Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文参考訳（メタデータ） (2024-02-06T18:54:07Z)
Mitigating Covertly Unsafe Text within Natural Language Systems [55.26364166702625]
制御されていないシステムは、怪我や致命的な結果につながるレコメンデーションを生成する。本稿では,身体的危害につながる可能性のあるテキストのタイプを識別し,特に未発見のカテゴリを確立する。
論文参考訳（メタデータ） (2022-10-17T17:59:49Z)
Towards a Responsible AI Development Lifecycle: Lessons From Information Security [0.0]
本稿では,人工知能システムを開発するためのフレームワークを提案する。特に,脅威モデリング,設計レビュー,浸透試験,インシデント応答の概念を活用することを提案する。
論文参考訳（メタデータ） (2022-03-06T13:03:58Z)
SoK: A Framework for Unifying At-Risk User Research [18.216554583064063]
リスクの高いユーザは,ディジタルセキュリティやプライバシ,安全上の脅威を経験する人たちです。本稿では,85論文の多岐にわたるメタ分析に基づいて,リスクの高いユーザを推論する枠組みを提案する。
論文参考訳（メタデータ） (2021-12-13T22:27:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。