論文の概要: Trustworthy AI on Safety, Bias, and Privacy: A Survey
- arxiv url: http://arxiv.org/abs/2502.10450v1
- Date: Tue, 11 Feb 2025 20:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:17:27.459261
- Title: Trustworthy AI on Safety, Bias, and Privacy: A Survey
- Title(参考訳): 安全、バイアス、プライバシーに関する信頼できるAI:調査
- Authors: Xingli Fang, Jianwei Li, Varun Mulchandani, Jung-Eun Kim,
- Abstract要約: 我々は、この分野の現状を調査し、AIモデルの信頼性に挑戦する懸念について、有望な洞察と視点を提示する。
本稿では,モデルの信頼性を損なう安全,プライバシ,バイアスの3つの推力に関する問題点について検討する。
- 参考スコア(独自算出の注目度): 6.2991576852385265
- License:
- Abstract: The capabilities of artificial intelligence systems have been advancing to a great extent, but these systems still struggle with failure modes, vulnerabilities, and biases. In this paper, we study the current state of the field, and present promising insights and perspectives regarding concerns that challenge the trustworthiness of AI models. In particular, this paper investigates the issues regarding three thrusts: safety, privacy, and bias, which hurt models' trustworthiness. For safety, we discuss safety alignment in the context of large language models, preventing them from generating toxic or harmful content. For bias, we focus on spurious biases that can mislead a network. Lastly, for privacy, we cover membership inference attacks in deep neural networks. The discussions addressed in this paper reflect our own experiments and observations.
- Abstract(参考訳): 人工知能システムの能力はかなり進歩しているが、これらのシステムは依然として障害モード、脆弱性、バイアスに悩まされている。
本稿では,AIモデルの信頼性に疑問を呈する懸念に対して,この分野の現状を考察し,将来性のある洞察と視点を示す。
特に,モデルの信頼性を損なう安全,プライバシ,バイアスの3つの推力に関する問題点について検討する。
安全のために、大規模言語モデルにおける安全性の整合性について議論し、有害なコンテンツや有害なコンテンツを発生させないようにする。
バイアスについては、ネットワークを誤解させる可能性のある急激なバイアスに注目します。
最後に、プライバシーに関しては、ディープニューラルネットワークにおけるメンバシップ推論攻撃をカバーしています。
本稿で論じる議論は、私たち自身の実験と観察を反映している。
関連論文リスト
- Exploring the Privacy Protection Capabilities of Chinese Large Language Models [19.12726985060863]
言語システムにおけるプライバシ評価のための3段階のプログレッシブフレームワークを考案した。
我々の主な目的は、大規模言語モデルの個人情報に対する感度を包括的に評価することである。
既存の中国の大規模言語モデルは、プライバシー保護の欠点を普遍的に示している。
論文 参考訳(メタデータ) (2024-03-27T02:31:54Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - A Survey of Robustness and Safety of 2D and 3D Deep Learning Models
Against Adversarial Attacks [22.054275309336]
ディープラーニングモデルは、敵の攻撃に対する堅牢性に制限があるため、十分に信頼できない。
まず、異なる視点から一般的な脅威モデルを構築し、それから2次元および3次元の敵攻撃の最新の進展を包括的にレビューする。
我々は3次元モデルに対する敵攻撃を体系的に研究した最初の人物である。
論文 参考訳(メタデータ) (2023-10-01T10:16:33Z) - Physical Adversarial Attack meets Computer Vision: A Decade Survey [55.38113802311365]
本稿では,身体的敵意攻撃の概要を概観する。
本研究は,身体的敵意攻撃の性能を体系的に評価する第一歩を踏み出した。
提案する評価基準であるhiPAAは6つの視点から構成される。
論文 参考訳(メタデータ) (2022-09-30T01:59:53Z) - Who's Afraid of Thomas Bayes? [0.0]
ベイズ主義とセキュリティの2つの尺度、すなわちプライバシと敵の堅牢性の間の相互作用について検討する。
ベイズニューラルネットワークは、一般の会員推論攻撃に対して弱いが、少なくとも非ベイズ的ニューラルネットワークに比べて頑健であることを示す。
論文 参考訳(メタデータ) (2021-07-30T12:54:46Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z) - Privacy and Robustness in Federated Learning: Attacks and Defenses [74.62641494122988]
このトピックに関する最初の包括的な調査を実施します。
FLの概念の簡潔な紹介と、1脅威モデル、2堅牢性に対する中毒攻撃と防御、3プライバシーに対する推論攻撃と防御、というユニークな分類学を通じて、私たちはこの重要なトピックのアクセス可能なレビューを提供します。
論文 参考訳(メタデータ) (2020-12-07T12:11:45Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z) - Privacy in Deep Learning: A Survey [16.278779275923448]
多くの分野でのディープラーニングの継続的な進歩は、プロダクションシステムにDeep Neural Networks(DNN)の採用につながっている。
大規模なデータセットと高い計算能力がこれらの進歩の主な貢献者である。
このデータはさまざまな脆弱性によって誤用または漏洩される可能性があるため、プライバシー上の深刻な懸念が生じる。
論文 参考訳(メタデータ) (2020-04-25T23:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。