Fugu-MT 論文翻訳(概要): Formalising Human-in-the-Loop: Computational Reductions, Failure Modes, and Legal-Moral Responsibility

論文の概要: Formalising Human-in-the-Loop: Computational Reductions, Failure Modes, and Legal-Moral Responsibility

arxiv url: http://arxiv.org/abs/2505.10426v1
Date: Thu, 15 May 2025 15:42:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 22:29:06.393478
Title: Formalising Human-in-the-Loop: Computational Reductions, Failure Modes, and Legal-Moral Responsibility
Title（参考訳）: ヒューマン・イン・ザ・ループの定式化:計算的削減, 障害モード, 法的責任
Authors: Maurice Chiodo, Dennis Müller, Paul Siewert, Jean-Luc Wetherall, Zoya Yasmine, John Burden,
Abstract要約: 本書は、これらの設定の中から選択する新しい方法を特定することを目的としている。これは、法的責任の帰属とAIの技術的説明可能性の間には避けられないトレードオフが存在することを示している。
参考スコア（独自算出の注目度）: 6.965534464983672
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The legal compliance and safety of different Human-in-the-loop (HITL) setups for AI can vary greatly. This manuscript aims to identify new ways of choosing between such setups, and shows that there is an unavoidable trade-off between the attribution of legal responsibility and the technical explainability of AI. We begin by using the notion of oracle machines from computability theory to formalise different HITL setups, distinguishing between trivial human monitoring, single endpoint human action, and highly involved interaction between the human(s) and the AI. These correspond to total functions, many-one reductions, and Turing reductions respectively. A taxonomy categorising HITL failure modes is then presented, highlighting the limitations on what any HITL setup can actually achieve. Our approach then identifies oversights from UK and EU legal frameworks, which focus on certain HITL setups which may not always achieve the desired ethical, legal, and sociotechnical outcomes. We suggest areas where the law should recognise the effectiveness of different HITL setups and assign responsibility in these contexts, avoiding unnecessary and unproductive human "scapegoating". Overall, we show how HITL setups involve many technical design decisions, and can be prone to failures which are often out of the humans' control. This opens up a new analytic perspective on the challenges arising in the creation of HITL setups, helping inform AI developers and lawmakers on designing HITL to better achieve their desired outcomes.
Abstract（参考訳）: AIのための異なるHuman-in-the-loop(HITL)セットアップの法的コンプライアンスと安全性は、大きく異なる可能性がある。この原稿は、これらの設定の中から選択する新しい方法を特定することを目的としており、法的責任の帰属とAIの技術的説明可能性の間には避けられないトレードオフが存在することを示している。まず、計算可能性理論からオラクルマシンの概念を用いて異なるHITLセットアップを定式化し、自明な人間の監視、単一エンドポイントの人間の行動、そして人間とAIの間の非常に複雑な相互作用を区別する。これらはトータル関数、多対一還元、チューリング還元に対応している。 HITL障害モードを分類する分類が提示され、HITL設定が実際に達成できることの制限が強調される。そして、我々のアプローチは、常に望ましい倫理的、法律的、社会技術的結果を達成するとは限らない特定のHITL設定に焦点を当てた、英国とEUの法的枠組みからの監督を特定する。我々は,法が異なるHITL設定の有効性を認識し,これらの文脈において責任を負うべき領域を提案し,不必要で非生産的な人間「景観化」を避ける。全体として、HITLのセットアップは、多くの技術的な設計上の決定を伴い、しばしば人間のコントロールから外れた失敗を招きがちであることを示す。これにより、HITLセットアップ作成に伴う課題に関する新たな分析的視点が開かれ、AI開発者や立法者がHITLを設計して、より望ましい結果を達成する上で役立ちます。

関連論文リスト

Personalized Constitutionally-Aligned Agentic Superego: Secure AI Behavior Aligned to Diverse Human Values [0.6640968473398455]
スーパーエゴエージェントは、ユーザーが選択した「クリードコンスティチューション」を参照してAIプランニングを操縦する制度は、これらの憲法と処刑前の普遍的な倫理的フロアに対する計画を検証する。
論文参考訳（メタデータ） (2025-06-08T20:31:26Z)
A Systematic Approach to Design Real-World Human-in-the-Loop Deep Reinforcement Learning: Salient Features, Challenges and Trade-offs [8.407988656933762]
本稿では,自己学習,模倣学習,伝達学習の3種類からなる階層型階層型HITL DRLアルゴリズムを提案する。我々は、複雑な問題の解決におけるHITLの主な課題、トレードオフ、利点、AIソリューションに人的情報を体系的に組み込む方法について論じる。
論文参考訳（メタデータ） (2025-04-23T18:00:08Z)
Research on Superalignment Should Advance Now with Parallel Optimization of Competence and Conformity [30.24208064228573]
スーパーアライメントは達成可能であり、その研究はすぐに進むべきだと我々は主張する。この研究は、価値に整合した次世代AIを開発するための実践的なアプローチに光を当てている。
論文参考訳（メタデータ） (2025-03-08T04:10:11Z)
The Road to Artificial SuperIntelligence: A Comprehensive Survey of Superalignment [33.27140396561271]
大規模言語モデル(LLMs)の出現は、人工超知能(ASI)の可能性を引き起こしている。 Superalignmentは2つの主要な目標 – 高品質なガイダンスシグナルを提供するための監視のスケーラビリティと、人間の価値との整合性を確保するための堅牢なガバナンス – に対処することを目指している。具体的には、ASIの概念、それらがもたらす課題、そしてスーパーアライメント問題に対処する際の現在のアライメントパラダイムの限界について検討する。
論文参考訳（メタデータ） (2024-12-21T03:51:04Z)
Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文参考訳（メタデータ） (2024-10-10T17:38:38Z)
Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文参考訳（メタデータ） (2024-06-13T16:03:25Z)
Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文参考訳（メタデータ） (2024-06-06T16:31:22Z)
A Moral Imperative: The Need for Continual Superalignment of Large Language Models [1.0499611180329806]
スーパーアライメント(Superalignment)は、超知能AIシステムが人間の価値観や目標に応じて行動することを確実にする理論フレームワークである。本稿では,AIシステム,特に大規模言語モデル(LLM)における生涯的スーパーアライメントの実現に関わる課題について検討する。
論文参考訳（メタデータ） (2024-03-13T05:44:50Z)
AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。 AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文参考訳（メタデータ） (2023-10-30T15:52:15Z)
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-05-04T17:59:28Z)
Fairness in Agreement With European Values: An Interdisciplinary Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文参考訳（メタデータ） (2022-06-08T12:32:08Z)
Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文参考訳（メタデータ） (2021-06-14T20:48:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。