論文の概要: Recent Advances towards Safe, Responsible, and Moral Dialogue Systems: A
Survey
- arxiv url: http://arxiv.org/abs/2302.09270v1
- Date: Sat, 18 Feb 2023 09:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:31:54.491043
- Title: Recent Advances towards Safe, Responsible, and Moral Dialogue Systems: A
Survey
- Title(参考訳): 安全・責任・道徳対話システムへの最近の進歩
- Authors: Jiawen Deng, Hao Sun, Zhexin Zhang, Jiale Cheng, Minlie Huang
- Abstract要約: 安全・責任・モダル対話システム構築に向けた研究範囲の新たな視点を提示する。
本稿では,1)虐待的・有害な内容,2)不公平・差別,3)倫理的・道徳的問題,および4)誤認・プライバシー情報のリスクについて論じる。
- 参考スコア(独自算出の注目度): 51.83369778259149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of artificial intelligence, dialogue systems have been
endowed with amazing chit-chat capabilities, and there is widespread interest
and discussion about whether the generated contents are socially beneficial. In
this paper, we present a new perspective of research scope towards building a
safe, responsible, and modal dialogue system, including 1) abusive and toxic
contents, 2) unfairness and discrimination, 3) ethics and morality issues, and
4) risk of misleading and privacy information. Besides, we review the
mainstream methods for evaluating the safety of large models from the
perspectives of exposure and detection of safety issues. The recent advances in
methodologies for the safety improvement of both end-to-end dialogue systems
and pipeline-based models are further introduced. Finally, we discussed six
existing challenges towards responsible AI: explainable safety monitoring,
continuous learning of safety issues, robustness against malicious attacks,
multimodal information processing, unified research framework, and
multidisciplinary theory integration. We hope this survey will inspire further
research toward safer dialogue systems.
- Abstract(参考訳): 人工知能の開発により、対話システムは素晴らしいチャット機能を備えており、生成されたコンテンツが社会的に有益であるかどうかについての関心や議論が広まっている。
本稿では,安全で責任があり,モダルな対話システムを構築するための研究の新たな視点を提案する。
1)虐待的かつ有毒な内容
2)不公平さ及び差別
3)倫理・道徳問題、及び
4)誤解を招くリスクとプライバシー情報。
また,大型モデルの安全性を評価するための主流手法について,露出と安全問題の検出の観点から検討する。
エンド・ツー・エンドの対話システムとパイプラインベースのモデルの両方の安全性向上のための方法論の最近の進歩が紹介されている。
最後に、責任あるaiに対する6つの課題について論じた: 説明可能な安全性モニタリング、安全問題の継続的な学習、悪意のある攻撃に対する堅牢性、マルチモーダル情報処理、統一研究フレームワーク、多分野理論の統合。
この調査は、より安全な対話システムに向けたさらなる研究を促すことを願っている。
関連論文リスト
- The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Safety at Scale: A Comprehensive Survey of Large Model Safety [299.801463557549]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - Building Trust: Foundations of Security, Safety and Transparency in AI [0.23301643766310373]
我々は、問題の追跡、修復、AIモデルのライフサイクルとオーナシッププロセスの明らかな欠如といった課題を強調しながら、現在のセキュリティと安全性のシナリオをレビューする。
本稿では,AIモデルの開発と運用において,より標準化されたセキュリティ,安全性,透明性を実現するための基礎的要素を提供する。
論文 参考訳(メタデータ) (2024-11-19T06:55:57Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。