論文の概要: Formalising Human-in-the-Loop: Computational Reductions, Failure Modes, and Legal-Moral Responsibility
- arxiv url: http://arxiv.org/abs/2505.10426v1
- Date: Thu, 15 May 2025 15:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.393478
- Title: Formalising Human-in-the-Loop: Computational Reductions, Failure Modes, and Legal-Moral Responsibility
- Title(参考訳): ヒューマン・イン・ザ・ループの定式化:計算的削減, 障害モード, 法的責任
- Authors: Maurice Chiodo, Dennis Müller, Paul Siewert, Jean-Luc Wetherall, Zoya Yasmine, John Burden,
- Abstract要約: 本書は、これらの設定の中から選択する新しい方法を特定することを目的としている。
これは、法的責任の帰属とAIの技術的説明可能性の間には避けられないトレードオフが存在することを示している。
- 参考スコア(独自算出の注目度): 6.965534464983672
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The legal compliance and safety of different Human-in-the-loop (HITL) setups for AI can vary greatly. This manuscript aims to identify new ways of choosing between such setups, and shows that there is an unavoidable trade-off between the attribution of legal responsibility and the technical explainability of AI. We begin by using the notion of oracle machines from computability theory to formalise different HITL setups, distinguishing between trivial human monitoring, single endpoint human action, and highly involved interaction between the human(s) and the AI. These correspond to total functions, many-one reductions, and Turing reductions respectively. A taxonomy categorising HITL failure modes is then presented, highlighting the limitations on what any HITL setup can actually achieve. Our approach then identifies oversights from UK and EU legal frameworks, which focus on certain HITL setups which may not always achieve the desired ethical, legal, and sociotechnical outcomes. We suggest areas where the law should recognise the effectiveness of different HITL setups and assign responsibility in these contexts, avoiding unnecessary and unproductive human "scapegoating". Overall, we show how HITL setups involve many technical design decisions, and can be prone to failures which are often out of the humans' control. This opens up a new analytic perspective on the challenges arising in the creation of HITL setups, helping inform AI developers and lawmakers on designing HITL to better achieve their desired outcomes.
- Abstract(参考訳): AIのための異なるHuman-in-the-loop(HITL)セットアップの法的コンプライアンスと安全性は、大きく異なる可能性がある。
この原稿は、これらの設定の中から選択する新しい方法を特定することを目的としており、法的責任の帰属とAIの技術的説明可能性の間には避けられないトレードオフが存在することを示している。
まず、計算可能性理論からオラクルマシンの概念を用いて異なるHITLセットアップを定式化し、自明な人間の監視、単一エンドポイントの人間の行動、そして人間とAIの間の非常に複雑な相互作用を区別する。
これらはトータル関数、多対一還元、チューリング還元に対応している。
HITL障害モードを分類する分類が提示され、HITL設定が実際に達成できることの制限が強調される。
そして、我々のアプローチは、常に望ましい倫理的、法律的、社会技術的結果を達成するとは限らない特定のHITL設定に焦点を当てた、英国とEUの法的枠組みからの監督を特定する。
我々は,法が異なるHITL設定の有効性を認識し,これらの文脈において責任を負うべき領域を提案し,不必要で非生産的な人間「景観化」を避ける。
全体として、HITLのセットアップは、多くの技術的な設計上の決定を伴い、しばしば人間のコントロールから外れた失敗を招きがちであることを示す。
これにより、HITLセットアップ作成に伴う課題に関する新たな分析的視点が開かれ、AI開発者や立法者がHITLを設計して、より望ましい結果を達成する上で役立ちます。
関連論文リスト
- On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - Personalized Constitutionally-Aligned Agentic Superego: Secure AI Behavior Aligned to Diverse Human Values [0.6640968473398455]
スーパーエゴエージェントは、ユーザーが選択した「クリードコンスティチューション」を参照してAIプランニングを操縦する
制度は、これらの憲法と処刑前の普遍的な倫理的フロアに対する計画を検証する。
論文 参考訳(メタデータ) (2025-06-08T20:31:26Z) - A Systematic Approach to Design Real-World Human-in-the-Loop Deep Reinforcement Learning: Salient Features, Challenges and Trade-offs [8.407988656933762]
本稿では,自己学習,模倣学習,伝達学習の3種類からなる階層型階層型HITL DRLアルゴリズムを提案する。
我々は、複雑な問題の解決におけるHITLの主な課題、トレードオフ、利点、AIソリューションに人的情報を体系的に組み込む方法について論じる。
論文 参考訳(メタデータ) (2025-04-23T18:00:08Z) - Research on Superalignment Should Advance Now with Parallel Optimization of Competence and Conformity [30.24208064228573]
スーパーアライメントは達成可能であり、その研究はすぐに進むべきだと我々は主張する。
この研究は、価値に整合した次世代AIを開発するための実践的なアプローチに光を当てている。
論文 参考訳(メタデータ) (2025-03-08T04:10:11Z) - The Road to Artificial SuperIntelligence: A Comprehensive Survey of Superalignment [33.27140396561271]
大規模言語モデル(LLMs)の出現は、人工超知能(ASI)の可能性を引き起こしている。
Superalignmentは2つの主要な目標 – 高品質なガイダンスシグナルを提供するための監視のスケーラビリティと、人間の価値との整合性を確保するための堅牢なガバナンス – に対処することを目指している。
具体的には、ASIの概念、それらがもたらす課題、そしてスーパーアライメント問題に対処する際の現在のアライメントパラダイムの限界について検討する。
論文 参考訳(メタデータ) (2024-12-21T03:51:04Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。
我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文 参考訳(メタデータ) (2024-06-06T16:31:22Z) - A Moral Imperative: The Need for Continual Superalignment of Large Language Models [1.0499611180329806]
スーパーアライメント(Superalignment)は、超知能AIシステムが人間の価値観や目標に応じて行動することを確実にする理論フレームワークである。
本稿では,AIシステム,特に大規模言語モデル(LLM)における生涯的スーパーアライメントの実現に関わる課題について検討する。
論文 参考訳(メタデータ) (2024-03-13T05:44:50Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Human Values in Multiagent Systems [3.5027291542274357]
本稿では,社会科学における価値の形式的表現について述べる。
我々は,この形式的表現を用いて,マルチエージェントシステムにおける価値整合性を実現する上で重要な課題を明確化する。
論文 参考訳(メタデータ) (2023-05-04T11:23:59Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。