論文の概要: When Testing AI Tests Us: Safeguarding Mental Health on the Digital Frontlines
- arxiv url: http://arxiv.org/abs/2504.20910v1
- Date: Tue, 29 Apr 2025 16:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.988854
- Title: When Testing AI Tests Us: Safeguarding Mental Health on the Digital Frontlines
- Title(参考訳): AIテストの時:デジタルフロントラインにおけるメンタルヘルスの保護
- Authors: Sachin R. Pendse, Darren Gergle, Rachel Kornfield, Jonah Meyerhoff, David Mohr, Jina Suh, Annie Wescott, Casey Williams, Jessica Schleider,
- Abstract要約: レッドチーム(Red-teaming)は、AIモデルが有害なコンテンツを生成しないことを保証するインフラストラクチャの中核部分である。
我々は、AI赤チームの精神的な健康のニーズが職場の安全にとって重要な問題であると主張している。
- 参考スコア(独自算出の注目度): 14.676507611388889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Red-teaming is a core part of the infrastructure that ensures that AI models do not produce harmful content. Unlike past technologies, the black box nature of generative AI systems necessitates a uniquely interactional mode of testing, one in which individuals on red teams actively interact with the system, leveraging natural language to simulate malicious actors and solicit harmful outputs. This interactional labor done by red teams can result in mental health harms that are uniquely tied to the adversarial engagement strategies necessary to effectively red team. The importance of ensuring that generative AI models do not propagate societal or individual harm is widely recognized -- one less visible foundation of end-to-end AI safety is also the protection of the mental health and wellbeing of those who work to keep model outputs safe. In this paper, we argue that the unmet mental health needs of AI red-teamers is a critical workplace safety concern. Through analyzing the unique mental health impacts associated with the labor done by red teams, we propose potential individual and organizational strategies that could be used to meet these needs, and safeguard the mental health of red-teamers. We develop our proposed strategies through drawing parallels between common red-teaming practices and interactional labor common to other professions (including actors, mental health professionals, conflict photographers, and content moderators), describing how individuals and organizations within these professional spaces safeguard their mental health given similar psychological demands. Drawing on these protective practices, we describe how safeguards could be adapted for the distinct mental health challenges experienced by red teaming organizations as they mitigate emerging technological risks on the new digital frontlines.
- Abstract(参考訳): レッドチーム(Red-teaming)は、AIモデルが有害なコンテンツを生成しないことを保証するインフラストラクチャの中核部分である。
従来の技術とは異なり、生成的AIシステムのブラックボックスの性質は、レッドチームの個人がシステムと積極的に対話し、自然言語を活用して悪意あるアクターをシミュレートし、有害なアウトプットを要求するという、ユニークな相互作用のモードを必要とする。
レッドチームによるこの相互作用的な労働は、効果的にレッドチームに必要な敵のエンゲージメント戦略に一意に結びついているメンタルヘルスの害をもたらす可能性がある。
エンド・ツー・エンドのAI安全性の低い基盤の1つは、モデルのアウトプットを安全に保つために働く人々のメンタルヘルスと幸福の保護である。
本稿では,AI赤チームにおけるメンタルヘルスのニーズが,職場の安全上重要な問題となっていることを論じる。
レッドチームによる労働にかかわるユニークなメンタルヘルスの影響を分析して、これらのニーズを満たすために使用できる潜在的な個人的および組織的戦略を提案し、レッドチームのメンタルヘルスを保護します。
提案手法は,他の職業(俳優,メンタルヘルス専門家,コンフリクト写真家,コンテントモデレーターなど)に共通する相互労働と共通のレッドチーム実践の類似性を引き出すことで,これらの専門分野の個人や組織が,同様の心理的要求に応じてメンタルヘルスをいかに保護するかを説明する。
このような保護的慣行に基づき、新たなデジタル前線における新たな技術的リスクを軽減するために、レッドチーム組織が経験する個別のメンタルヘルス課題に対して、セーフガードをどのように適応させるかを説明する。
関連論文リスト
- Towards Privacy-aware Mental Health AI Models: Advances, Challenges, and Opportunities [61.633126163190724]
精神病は、社会的、個人的コストがかなり高い広範囲で不安定な状態である。
近年の人工知能(AI)の進歩は、うつ病、不安障害、双極性障害、統合失調症、外傷後ストレス障害などの病態を認識し、対処するための大きな可能性を秘めている。
データセットやトレーニング済みモデルからの機密データ漏洩のリスクを含むプライバシー上の懸念は、これらのAIシステムを実際の臨床環境にデプロイする上で、依然として重要な障壁である。
論文 参考訳(メタデータ) (2025-02-01T15:10:02Z) - AI red-teaming is a sociotechnical challenge: on values, labor, and harms [3.0001147629373195]
赤いチーム」がAIモデルをテストするための主要なアプローチになった。
私たちは、レッドチームの背後にある価値と前提を理解することの重要性を強調します。
論文 参考訳(メタデータ) (2024-12-12T22:48:19Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - Enhancing Mental Health Support through Human-AI Collaboration: Toward Secure and Empathetic AI-enabled chatbots [0.0]
本稿では、スケーラブルなソリューションとしてのAI対応チャットボットの可能性について検討する。
メンタルヘルスの文脈で共感的で有意義な反応を提供する能力を評価する。
本稿では,データプライバシを保証し,バイアスを低減し,臨床医による継続的検証を統合して応答品質を向上させるためのフェデレート学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-17T20:49:13Z) - The Human Factor in AI Red Teaming: Perspectives from Social and Collaborative Computing [4.933252611303578]
汎用AIの急速な進歩は、"レッドチーム"に大きな関心を喚起した
レッドチームの選択方法、テストの実施方法におけるバイアスと盲点、レッドチームの心理的影響に関する質問。
将来の研究は、公正からメンタルヘルス、その他の潜在的な害のある分野まで幅広いトピックを探求することができる。
論文 参考訳(メタデータ) (2024-07-10T16:02:13Z) - Risks from Language Models for Automated Mental Healthcare: Ethics and Structure for Implementation [0.0]
本稿では、自律性のレベルを規定し、倫理的要件を概説し、AIエージェントに最適なデフォルト動作を定義する構造化フレームワークを提案する。
また,16のメンタルヘルス関連質問紙を用いて,14の最先端言語モデル(既成語10種,微調整語4種)を評価した。
論文 参考訳(メタデータ) (2024-04-02T15:05:06Z) - PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Red-Teaming for Generative AI: Silver Bullet or Security Theater? [42.35800543892003]
我々は、赤いチーム化は、GenAIの有害な軽減を特徴付ける上で価値のある大胆なアイデアであるが、業界はAIを保護するために、閉じたドアの後ろでレッドチームやその他の戦略を効果的に適用するかもしれないと論じている。
生成AIの評価のより堅牢なツールボックスに向けて、私たちは、私たちの推奨事項を、将来のAI赤チームプラクティスをガイドし、足場にすることを目的とした質問銀行に合成します。
論文 参考訳(メタデータ) (2024-01-29T05:46:14Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - The Promise and Peril of Artificial Intelligence -- Violet Teaming
Offers a Balanced Path Forward [56.16884466478886]
本稿では、不透明で制御不能なAIシステムにおける新興問題についてレビューする。
信頼性と責任のあるAIを開発するために、紫外チームと呼ばれる統合フレームワークを提案する。
それは、設計によって積極的にリスクを管理するためのAI安全研究から生まれた。
論文 参考訳(メタデータ) (2023-08-28T02:10:38Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。