論文の概要: Formalising Human-in-the-Loop: Computational Reductions, Failure Modes, and Legal-Moral Responsibility
- arxiv url: http://arxiv.org/abs/2505.10426v2
- Date: Thu, 25 Sep 2025 21:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.33935
- Title: Formalising Human-in-the-Loop: Computational Reductions, Failure Modes, and Legal-Moral Responsibility
- Title(参考訳): ヒューマン・イン・ザ・ループの定式化:計算的削減, 障害モード, 法的責任
- Authors: Maurice Chiodo, Dennis Müller, Paul Siewert, Jean-Luc Wetherall, Zoya Yasmine, John Burden,
- Abstract要約: 我々はAIシステムのための異なるHuman-in-the-loop(HITL)セットアップを定式化する。
異なる設定の法的地位と安全性は大きく異なることを示す。
本稿では,HITLの障害モードを分類するための分類法を提案し,HITL設定の実用的限界を強調した。
- 参考スコア(独自算出の注目度): 3.635142169140065
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We use the notion of oracle machines and reductions from computability theory to formalise different Human-in-the-loop (HITL) setups for AI systems, distinguishing between trivial human monitoring (i.e., total functions), single endpoint human action (i.e., many-one reductions), and highly involved human-AI interaction (i.e., Turing reductions). We then proceed to show that the legal status and safety of different setups vary greatly. We present a taxonomy to categorise HITL failure modes, highlighting the practical limitations of HITL setups. We then identify omissions in UK and EU legal frameworks, which focus on HITL setups that may not always achieve the desired ethical, legal, and sociotechnical outcomes. We suggest areas where the law should recognise the effectiveness of different HITL setups and assign responsibility in these contexts, avoiding human "scapegoating". Our work shows an unavoidable trade-off between attribution of legal responsibility, and technical explainability. Overall, we show how HITL setups involve many technical design decisions, and can be prone to failures out of the humans' control. Our formalisation and taxonomy opens up a new analytic perspective on the challenges in creating HITL setups, helping inform AI developers and lawmakers on designing HITL setups to better achieve their desired outcomes.
- Abstract(参考訳): オラクルマシンの概念と計算可能性理論からの還元を用いて、AIシステムのための異なるヒューマン・イン・ザ・ループ(HITL)のセットアップを形式化し、自明なヒューマン・モニタリング(全機能)、単一エンドポイントのヒューマン・アクション(多対一の削減)、そして非常に関連するヒューマン・AIインタラクション(チューリング・リダクション)を区別する。
次に、異なる設定の法的地位と安全性が大きく異なることを示す。
本稿では,HITLの障害モードを分類するための分類法を提案し,HITL設定の実用的限界を強調した。
英国とEUの法的枠組みでは、常に望ましい倫理的、法的、社会技術的成果を達成できないHITL設定に重点を置いている。
我々は,法律が異なるHITL設定の有効性を認識し,これらの文脈において責任を負うべき分野を提案する。
私たちの研究は、法的責任の帰属と技術的説明可能性の間の不可避のトレードオフを示しています。
全体として、HITLのセットアップは、多くの技術的な設計上の決定を伴い、人間のコントロールから外れた失敗を招きがちであることを示す。
私たちのフォーマライゼーションと分類学は、HITLセットアップを作成する上での課題に関する新たな分析的視点を開いています。
関連論文リスト
- Personalized Constitutionally-Aligned Agentic Superego: Secure AI Behavior Aligned to Diverse Human Values [0.6640968473398455]
スーパーエゴエージェントは、ユーザーが選択した「クリードコンスティチューション」を参照してAIプランニングを操縦する
制度は、これらの憲法と処刑前の普遍的な倫理的フロアに対する計画を検証する。
論文 参考訳(メタデータ) (2025-06-08T20:31:26Z) - A Systematic Approach to Design Real-World Human-in-the-Loop Deep Reinforcement Learning: Salient Features, Challenges and Trade-offs [8.407988656933762]
本稿では,自己学習,模倣学習,伝達学習の3種類からなる階層型階層型HITL DRLアルゴリズムを提案する。
我々は、複雑な問題の解決におけるHITLの主な課題、トレードオフ、利点、AIソリューションに人的情報を体系的に組み込む方法について論じる。
論文 参考訳(メタデータ) (2025-04-23T18:00:08Z) - Research on Superalignment Should Advance Now with Parallel Optimization of Competence and Conformity [30.24208064228573]
スーパーアライメントは達成可能であり、その研究はすぐに進むべきだと我々は主張する。
この研究は、価値に整合した次世代AIを開発するための実践的なアプローチに光を当てている。
論文 参考訳(メタデータ) (2025-03-08T04:10:11Z) - The Road to Artificial SuperIntelligence: A Comprehensive Survey of Superalignment [33.27140396561271]
大規模言語モデル(LLMs)の出現は、人工超知能(ASI)の可能性を引き起こしている。
Superalignmentは2つの主要な目標 – 高品質なガイダンスシグナルを提供するための監視のスケーラビリティと、人間の価値との整合性を確保するための堅牢なガバナンス – に対処することを目指している。
具体的には、ASIの概念、それらがもたらす課題、そしてスーパーアライメント問題に対処する際の現在のアライメントパラダイムの限界について検討する。
論文 参考訳(メタデータ) (2024-12-21T03:51:04Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。
我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文 参考訳(メタデータ) (2024-06-06T16:31:22Z) - A Moral Imperative: The Need for Continual Superalignment of Large Language Models [1.0499611180329806]
スーパーアライメント(Superalignment)は、超知能AIシステムが人間の価値観や目標に応じて行動することを確実にする理論フレームワークである。
本稿では,AIシステム,特に大規模言語モデル(LLM)における生涯的スーパーアライメントの実現に関わる課題について検討する。
論文 参考訳(メタデータ) (2024-03-13T05:44:50Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。