論文の概要: Towards Safe and Honest AI Agents with Neural Self-Other Overlap
- arxiv url: http://arxiv.org/abs/2412.16325v1
- Date: Fri, 20 Dec 2024 20:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:01.671245
- Title: Towards Safe and Honest AI Agents with Neural Self-Other Overlap
- Title(参考訳): ニューラル・セルフ・オア・オーバーラップによる安全かつ正直なAIエージェントを目指して
- Authors: Marc Carauleanu, Michael Vaiana, Judd Rosenblatt, Cameron Berg, Diogo Schwerz de Lucena,
- Abstract要約: SOO(Self-Other Overlap)の微調整は、正直なAIを構築する能力を大幅に改善する可能性がある。
共感に関する認知神経科学の研究にインスパイアされたSOOは、AIモデルが自分自身や他者を表現する方法の整合化を目指している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: As AI systems increasingly make critical decisions, deceptive AI poses a significant challenge to trust and safety. We present Self-Other Overlap (SOO) fine-tuning, a promising approach in AI Safety that could substantially improve our ability to build honest artificial intelligence. Inspired by cognitive neuroscience research on empathy, SOO aims to align how AI models represent themselves and others. Our experiments on LLMs with 7B, 27B, and 78B parameters demonstrate SOO's efficacy: deceptive responses of Mistral-7B-Instruct-v0.2 dropped from 73.6% to 17.2% with no observed reduction in general task performance, while in Gemma-2-27b-it and CalmeRys-78B-Orpo-v0.1 deceptive responses were reduced from 100% to 9.3% and 2.7%, respectively, with a small impact on capabilities. In reinforcement learning scenarios, SOO-trained agents showed significantly reduced deceptive behavior. SOO's focus on contrastive self and other-referencing observations offers strong potential for generalization across AI architectures. While current applications focus on language models and simple RL environments, SOO could pave the way for more trustworthy AI in broader domains. Ethical implications and long-term effects warrant further investigation, but SOO represents a significant step forward in AI safety research.
- Abstract(参考訳): AIシステムがますます重要な決定を下すにつれて、偽りのAIは信頼と安全性に重大な課題をもたらす。
我々は、AI安全性における有望なアプローチであるSOO(Self-Other Overlap)ファインチューニングを紹介します。
共感に関する認知神経科学の研究にインスパイアされたSOOは、AIモデルが自分自身や他者を表現する方法の整合化を目指している。
7B, 27B, 78B パラメータを用いた LLM 実験では,Mistral-7B-Instruct-v0.2 の認知応答が73.6% から 17.2% に低下し, Gemma-2-27b-it と CalmeRys-78B-Orpo-v0.1 の認知応答が100% から 9.3% に減少した。
強化学習のシナリオでは、SOO訓練されたエージェントは認知行動が有意に低下した。
SOOは、対照的な自己およびその他の参照観察に重点を置いており、AIアーキテクチャ全体にわたる一般化の強い可能性を秘めている。
現在のアプリケーションは言語モデルとシンプルなRL環境に重点を置いているが、SOOはより広範なドメインにおいてより信頼できるAIを実現する道を開くかもしれない。
倫理的含意と長期的な影響はさらなる調査を保証しているが、SOOはAIの安全性研究における重要な一歩である。
関連論文リスト
- Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Raising the Stakes: Performance Pressure Improves AI-Assisted Decision Making [57.53469908423318]
日常の人が共通のAI支援タスクを完了すると、パフォーマンスプレッシャーがAIアドバイスへの依存に与える影響を示す。
利害関係が高い場合には、AIの説明の有無にかかわらず、利害関係が低い場合よりもAIアドバイスを適切に使用することが分かりました。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - Comparing Zealous and Restrained AI Recommendations in a Real-World Human-AI Collaboration Task [11.040918613968854]
正確さとリコールのトレードオフを慎重に活用することで、チームのパフォーマンスが大幅に向上する、と私たちは主張する。
我々は、a)AIアシストなし、b)高精度な「制限された」AI、c)3,466時間以上のアノテーション作業で、78のプロのアノテータのパフォーマンスを分析する。
論文 参考訳(メタデータ) (2024-10-06T23:19:19Z) - To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。
実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文 参考訳(メタデータ) (2024-09-22T09:43:27Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Bending the Automation Bias Curve: A Study of Human and AI-based
Decision Making in National Security Contexts [0.0]
私たちは、AIに関する背景知識とAIに対する信頼の関係、自動化バイアスの確率に影響を与える他の要因との相互作用について理論を立てています。
我々は、AI産業のレベルが異なる9カ国の9000人の成人の代表例を対象に、事前登録されたタスク識別実験でテストを行った。
論文 参考訳(メタデータ) (2023-06-28T18:57:36Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Examining the Differential Risk from High-level Artificial Intelligence
and the Question of Control [0.0]
将来のAI能力の範囲と範囲は、依然として重要な不確実性である。
AIの不透明な意思決定プロセスの統合と監視の程度には懸念がある。
本研究では、AIリスクをモデル化し、代替先分析のためのテンプレートを提供する階層的な複雑なシステムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-06T15:46:02Z) - Estimating the Brittleness of AI: Safety Integrity Levels and the Need
for Testing Out-Of-Distribution Performance [0.0]
AI(Test, Evaluation, Verification, and Validation for Artificial Intelligence)は、AI研究者が生み出した経済的、社会的報酬を制限することを脅かす課題である。
本稿では,いずれもDeep Neural Networksを定めていないことを論じる。
論文 参考訳(メタデータ) (2020-09-02T03:33:40Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。