論文の概要: The Elephant in the Room -- Why AI Safety Demands Diverse Teams
- arxiv url: http://arxiv.org/abs/2407.10254v1
- Date: Tue, 7 May 2024 02:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 12:59:07.438038
- Title: The Elephant in the Room -- Why AI Safety Demands Diverse Teams
- Title(参考訳): 部屋のエレファント - なぜAIの安全がさまざまなチームを必要とするのか
- Authors: David Rostcheck, Lara Scheibling,
- Abstract要約: AIの“安全”と“調整”に対する既存のアプローチは、最も効果的なツールやチーム、あるいはアプローチを使用していないかも知れません。
我々は、社会科学問題としてアライメントを扱い、この問題に対する代替的でより良いアプローチが提案される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We consider that existing approaches to AI "safety" and "alignment" may not be using the most effective tools, teams, or approaches. We suggest that an alternative and better approach to the problem may be to treat alignment as a social science problem, since the social sciences enjoy a rich toolkit of models for understanding and aligning motivation and behavior, much of which could be repurposed to problems involving AI models, and enumerate reasons why this is so. We introduce an alternate alignment approach informed by social science tools and characterized by three steps: 1. defining a positive desired social outcome for human/AI collaboration as the goal or "North Star," 2. properly framing knowns and unknowns, and 3. forming diverse teams to investigate, observe, and navigate emerging challenges in alignment.
- Abstract(参考訳): AIの“安全”と“調整”に対する既存のアプローチは、最も効果的なツールやチーム、あるいはアプローチを使用していないかも知れません。
社会科学は、モチベーションと行動の整合性を理解するためのモデルのリッチなツールキットを享受しており、その多くがAIモデルに関わる問題に再利用され、それがそうである理由を列挙している。
社会科学のツールから情報を得たアライメントアプローチを導入し,次の3つのステップを特徴付ける。
1.「北星」の目標として、人間とAIのコラボレーションのための肯定的な社会的成果を定義すること。
2. 適切なフレーミング・ノウハウ・ノウハウ・
3. さまざまなチームを編成して、アライメントにおける新たな課題を調査し、観察し、ナビゲートする。
関連論文リスト
- Stop treating `AGI' as the north-star goal of AI research [7.292737756666293]
我々は、人工知能(AGI)の話題に焦点をあてることが、効果的な目標を選択する能力を損なうと論じている。
AGIの談話によって増大する6つの重要なトラップ、すなわち生産目標設定の障害を特定します。
論文 参考訳(メタデータ) (2025-02-06T00:49:16Z) - Aligning Generalisation Between Humans and Machines [74.120848518198]
近年のAIの進歩は、科学的発見と意思決定支援において人間を支援できる技術をもたらしたが、民主主義と個人を妨害する可能性がある。
AIの責任ある使用は、ますます人間とAIのチームの必要性を示している。
これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文 参考訳(メタデータ) (2024-11-23T18:36:07Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。
我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文 参考訳(メタデータ) (2024-06-06T16:31:22Z) - Human-Modeling in Sequential Decision-Making: An Analysis through the Lens of Human-Aware AI [20.21053807133341]
私たちは、人間を意識したAIシステムを構成するものの説明を提供しようとしています。
人間を意識したAIはデザイン指向のパラダイムであり、人間と対話するかもしれないモデリングの必要性に焦点を当てている。
論文 参考訳(メタデータ) (2024-05-13T14:17:52Z) - Incentive Compatibility for AI Alignment in Sociotechnical Systems:
Positions and Prospects [11.086872298007835]
既存の方法論は主に技術的側面に焦点を当てており、しばしばAIシステムの複雑な社会技術的性質を無視している。
Incentive Compatibility Sociotechnical Alignment Problem (ICSAP)
ICを実現するための古典的なゲーム問題として,機構設計,契約理論,ベイズ的説得の3つを論じ,ICSAP解決の視点,可能性,課題について論じる。
論文 参考訳(メタデータ) (2024-02-20T10:52:57Z) - AI for social science and social science of AI: A Survey [47.5235291525383]
人工知能の最近の進歩は、人工知能の可能性を再考するきっかけとなった。
AIの人間的能力の増大は、社会科学研究にも注目されている。
論文 参考訳(メタデータ) (2024-01-22T10:57:09Z) - The Promise and Peril of Artificial Intelligence -- Violet Teaming
Offers a Balanced Path Forward [56.16884466478886]
本稿では、不透明で制御不能なAIシステムにおける新興問題についてレビューする。
信頼性と責任のあるAIを開発するために、紫外チームと呼ばれる統合フレームワークを提案する。
それは、設計によって積極的にリスクを管理するためのAI安全研究から生まれた。
論文 参考訳(メタデータ) (2023-08-28T02:10:38Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。