論文の概要: A Checks-and-Balances Framework for Context-Aware Ethical AI Alignment
- arxiv url: http://arxiv.org/abs/2502.00136v3
- Date: Wed, 28 May 2025 05:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.686337
- Title: A Checks-and-Balances Framework for Context-Aware Ethical AI Alignment
- Title(参考訳): コンテキスト認識型倫理的AIアライメントのためのチェック・アンド・バランシングフレームワーク
- Authors: Edward Y. Chang,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の倫理的アライメントのためのチェック・アンド・バランスフレームワークを提案する。
LLMは知識生成の執行部門、DIKEは倫理的ガードレールを確立する立法部門、ERISは文脈解釈の司法部門である。
- 参考スコア(独自算出の注目度): 2.5200794639628032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a checks-and-balances framework for ethical alignment of Large Language Models (LLMs), inspired by three-branch governmental systems. It implements three independent yet interacting components: LLMs as the executive branch for knowledge generation, DIKE as the legislative branch establishing ethical guardrails, and ERIS as the judicial branch for contextual interpretation. Beyond structural separation, we address a fundamental challenge: regulating emotion to shape behaviors. Drawing from psychological theories where managing emotional responses prevents harmful behaviors, we develop a self-supervised learning pipeline that maps emotions to linguistic behaviors, enabling precise behavioral modulation through emotional conditioning. By integrating this approach with adversarial testing, our framework demonstrates how DIKE and ERIS direct linguistic behaviors toward ethical outcomes while preserving independence throughout knowledge generation, ethical oversight, and contextual interpretation.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) の倫理的アライメントのためのチェック・アンド・バランス・フレームワークを提案する。
LLMは知識生成の執行部門、DIKEは倫理的ガードレールを確立する立法部門、ERISは文脈解釈の司法部門である。
構造的分離を超えて、感情を調節して行動を形成するという根本的な課題に対処する。
感情的反応を管理する心理的理論から,感情を言語的行動にマッピングし,感情的条件付けによる正確な行動調節を可能にする,自己指導型学習パイプラインを開発した。
DIKEとERISは、このアプローチを敵対的テストと統合することにより、知識生成、倫理的監視、文脈的解釈を通じて独立性を維持しながら、倫理的成果に対して言語行動がどのように振る舞うかを実証する。
関連論文リスト
- The Convergent Ethics of AI? Analyzing Moral Foundation Priorities in Large Language Models with a Multi-Framework Approach [6.0972634521845475]
本稿では,Reasoning and Intrinsic Moral Evaluation (PRIME)フレームワークについて紹介する。
PRIMEは、基本的な倫理的側面をまたいだ倫理的優先順位を分析するための包括的な方法論である。
我々はこのフレームワークを6つの主要な大規模言語モデル (LLM) に適用する。
論文 参考訳(メタデータ) (2025-04-27T14:26:48Z) - Technology as uncharted territory: Contextual integrity and the notion of AI as new ethical ground [55.2480439325792]
私は、責任と倫理的AIを促進する努力が、確立された文脈規範に対するこの軽視に必然的に貢献し、正当化することができると論じます。
私は、道徳的保護よりも道徳的革新のAI倫理における現在の狭い優先順位付けに疑問を呈する。
論文 参考訳(メタデータ) (2024-12-06T15:36:13Z) - Integrating Emotional and Linguistic Models for Ethical Compliance in Large Language Models [2.5200794639628032]
本研究は、感情や倫理に関する言語行動をよりよく管理するために、大規模言語モデル(LLM)の高度な方法論を開発する。
我々は,LLMがグローバルな人的価値を内在化し,反映する能力を高めるための,敵対的枠組みであるDIKEを紹介する。
論文 参考訳(メタデータ) (2024-05-11T19:26:00Z) - Towards Responsible AI in Banking: Addressing Bias for Fair
Decision-Making [69.44075077934914]
責任AI(Responsible AI)は、企業文化の発展におけるバイアスに対処する重要な性質を強調している。
この論文は、バイアスを理解すること、バイアスを緩和すること、バイアスを説明することの3つの基本的な柱に基づいて構成されている。
オープンソースの原則に従って、アクセス可能なPythonパッケージとして、Bias On DemandとFairViewをリリースしました。
論文 参考訳(メタデータ) (2024-01-13T14:07:09Z) - Social, Legal, Ethical, Empathetic, and Cultural Rules: Compilation and Reasoning (Extended Version) [8.425874385897831]
SLEEC(社会的、法的、倫理的、共感的、文化的)ルールは、AIベースの自律システムが従うべき規則の定式化、検証、実施を促進することを目的としている。
AIシステムで効果的な使用を可能にするためには、これらのルールを自動推論をサポートする形式言語に体系的に翻訳する必要がある。
本研究ではまず,SLEEC規則の古典論理への翻訳を正当化するSLEEC規則パターンの言語学的解析を行う。
論文 参考訳(メタデータ) (2023-12-15T11:23:49Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - On Fairness and Interpretability [8.732874144276352]
我々は,様々な次元における公平性と解釈可能性の違いを論じ,解明する。
今後、倫理的AIを開発するための原則に基づくフレームワークを2つ開発する。
論文 参考訳(メタデータ) (2021-06-24T18:48:46Z) - Ethics-Based Auditing to Develop Trustworthy AI [0.0]
倫理に基づく監査は、意思決定の質の向上、ユーザの満足度の向上、成長可能性の解放、法律作成の有効化、人間の苦悩の緩和を可能にすると論じる。
倫理に基づく監査は、継続的かつ建設的なプロセスの形をとり、システムの観点から倫理的なアライメントにアプローチし、倫理的に望ましい行動のための公共政策とインセンティブに整合する必要があります。
論文 参考訳(メタデータ) (2021-04-30T11:39:40Z) - Case Study: Deontological Ethics in NLP [119.53038547411062]
我々はNLPの観点から1つの倫理理論、すなわち非オントロジー的倫理について研究する。
特に、インフォームド・コンセントを通じて、一般化原則と自律性への敬意に焦点を当てる。
NLPシステムでこれらの原則をどのように利用できるかを示すための4つのケーススタディを提供する。
論文 参考訳(メタデータ) (2020-10-09T16:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。