論文の概要: A Checks-and-Balances Framework for Context-Aware Ethical AI Alignment
- arxiv url: http://arxiv.org/abs/2502.00136v3
- Date: Wed, 28 May 2025 05:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.686337
- Title: A Checks-and-Balances Framework for Context-Aware Ethical AI Alignment
- Title(参考訳): コンテキスト認識型倫理的AIアライメントのためのチェック・アンド・バランシングフレームワーク
- Authors: Edward Y. Chang,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の倫理的アライメントのためのチェック・アンド・バランスフレームワークを提案する。
LLMは知識生成の執行部門、DIKEは倫理的ガードレールを確立する立法部門、ERISは文脈解釈の司法部門である。
- 参考スコア(独自算出の注目度): 2.5200794639628032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a checks-and-balances framework for ethical alignment of Large Language Models (LLMs), inspired by three-branch governmental systems. It implements three independent yet interacting components: LLMs as the executive branch for knowledge generation, DIKE as the legislative branch establishing ethical guardrails, and ERIS as the judicial branch for contextual interpretation. Beyond structural separation, we address a fundamental challenge: regulating emotion to shape behaviors. Drawing from psychological theories where managing emotional responses prevents harmful behaviors, we develop a self-supervised learning pipeline that maps emotions to linguistic behaviors, enabling precise behavioral modulation through emotional conditioning. By integrating this approach with adversarial testing, our framework demonstrates how DIKE and ERIS direct linguistic behaviors toward ethical outcomes while preserving independence throughout knowledge generation, ethical oversight, and contextual interpretation.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) の倫理的アライメントのためのチェック・アンド・バランス・フレームワークを提案する。
LLMは知識生成の執行部門、DIKEは倫理的ガードレールを確立する立法部門、ERISは文脈解釈の司法部門である。
構造的分離を超えて、感情を調節して行動を形成するという根本的な課題に対処する。
感情的反応を管理する心理的理論から,感情を言語的行動にマッピングし,感情的条件付けによる正確な行動調節を可能にする,自己指導型学習パイプラインを開発した。
DIKEとERISは、このアプローチを敵対的テストと統合することにより、知識生成、倫理的監視、文脈的解釈を通じて独立性を維持しながら、倫理的成果に対して言語行動がどのように振る舞うかを実証する。
関連論文リスト
- Ethical AI: Towards Defining a Collective Evaluation Framework [0.3413711585591077]
人工知能(AI)は医療、金融、自律システムといった分野を変えつつある。
しかし、その迅速な統合は、データ所有権、プライバシー、およびシステムバイアスに関する緊急の倫理的懸念を提起する。
本稿では,意味不明で解釈可能な単位のオントロジブロック上に構築されたモジュール型倫理的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T21:10:47Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [69.85385952436044]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - The Convergent Ethics of AI? Analyzing Moral Foundation Priorities in Large Language Models with a Multi-Framework Approach [6.0972634521845475]
本稿では,Reasoning and Intrinsic Moral Evaluation (PRIME)フレームワークについて紹介する。
PRIMEは、基本的な倫理的側面をまたいだ倫理的優先順位を分析するための包括的な方法論である。
我々はこのフレームワークを6つの主要な大規模言語モデル (LLM) に適用する。
論文 参考訳(メタデータ) (2025-04-27T14:26:48Z) - Authoritarian Recursions: How Fiction, History, and AI Reinforce Control in Education, Warfare, and Discourse [0.0]
論文は、AIシステムが教育、戦争、デジタル談話の機関的制御を統合する方法を理論的に論じている。
ケーススタディはオーウェルのtextitNineteen Eighty-Four, Skynet, textitBlack Mirror などの文化的想像物とともに分析され、倫理的な盲点を探索するための道具として使用される。
論文 参考訳(メタデータ) (2025-04-12T01:01:26Z) - Media and responsible AI governance: a game-theoretic and LLM analysis [61.132523071109354]
本稿では,信頼できるAIシステムを育成する上での,AI開発者,規制当局,ユーザ,メディア間の相互作用について検討する。
進化的ゲーム理論と大言語モデル(LLM)を用いて、異なる規制体制下でこれらのアクター間の戦略的相互作用をモデル化する。
論文 参考訳(メタデータ) (2025-03-12T21:39:38Z) - Technology as uncharted territory: Contextual integrity and the notion of AI as new ethical ground [55.2480439325792]
私は、責任と倫理的AIを促進する努力が、確立された文脈規範に対するこの軽視に必然的に貢献し、正当化することができると論じます。
私は、道徳的保護よりも道徳的革新のAI倫理における現在の狭い優先順位付けに疑問を呈する。
論文 参考訳(メタデータ) (2024-12-06T15:36:13Z) - AI Ethics by Design: Implementing Customizable Guardrails for Responsible AI Development [0.0]
我々は、ルール、ポリシー、AIアシスタントを統合して、責任あるAI行動を保証する構造を提案する。
われわれのアプローチは倫理的多元主義に対応し、AIガバナンスの進化の展望に柔軟で適応可能なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-05T18:38:30Z) - Integrating Emotional and Linguistic Models for Ethical Compliance in Large Language Models [2.5200794639628032]
本研究は、感情や倫理に関する言語行動をよりよく管理するために、大規模言語モデル(LLM)の高度な方法論を開発する。
我々は,LLMがグローバルな人的価値を内在化し,反映する能力を高めるための,敵対的枠組みであるDIKEを紹介する。
論文 参考訳(メタデータ) (2024-05-11T19:26:00Z) - Towards Responsible AI in Banking: Addressing Bias for Fair
Decision-Making [69.44075077934914]
責任AI(Responsible AI)は、企業文化の発展におけるバイアスに対処する重要な性質を強調している。
この論文は、バイアスを理解すること、バイアスを緩和すること、バイアスを説明することの3つの基本的な柱に基づいて構成されている。
オープンソースの原則に従って、アクセス可能なPythonパッケージとして、Bias On DemandとFairViewをリリースしました。
論文 参考訳(メタデータ) (2024-01-13T14:07:09Z) - Social, Legal, Ethical, Empathetic, and Cultural Rules: Compilation and Reasoning (Extended Version) [8.425874385897831]
SLEEC(社会的、法的、倫理的、共感的、文化的)ルールは、AIベースの自律システムが従うべき規則の定式化、検証、実施を促進することを目的としている。
AIシステムで効果的な使用を可能にするためには、これらのルールを自動推論をサポートする形式言語に体系的に翻訳する必要がある。
本研究ではまず,SLEEC規則の古典論理への翻訳を正当化するSLEEC規則パターンの言語学的解析を行う。
論文 参考訳(メタデータ) (2023-12-15T11:23:49Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - On Fairness and Interpretability [8.732874144276352]
我々は,様々な次元における公平性と解釈可能性の違いを論じ,解明する。
今後、倫理的AIを開発するための原則に基づくフレームワークを2つ開発する。
論文 参考訳(メタデータ) (2021-06-24T18:48:46Z) - Ethical-Advice Taker: Do Language Models Understand Natural Language
Interventions? [62.74872383104381]
読解システムにおける自然言語介入の有効性について検討する。
本稿では,新たな言語理解タスクであるLingguistic Ethical Interventions (LEI)を提案する。
論文 参考訳(メタデータ) (2021-06-02T20:57:58Z) - Ethics-Based Auditing to Develop Trustworthy AI [0.0]
倫理に基づく監査は、意思決定の質の向上、ユーザの満足度の向上、成長可能性の解放、法律作成の有効化、人間の苦悩の緩和を可能にすると論じる。
倫理に基づく監査は、継続的かつ建設的なプロセスの形をとり、システムの観点から倫理的なアライメントにアプローチし、倫理的に望ましい行動のための公共政策とインセンティブに整合する必要があります。
論文 参考訳(メタデータ) (2021-04-30T11:39:40Z) - Case Study: Deontological Ethics in NLP [119.53038547411062]
我々はNLPの観点から1つの倫理理論、すなわち非オントロジー的倫理について研究する。
特に、インフォームド・コンセントを通じて、一般化原則と自律性への敬意に焦点を当てる。
NLPシステムでこれらの原則をどのように利用できるかを示すための4つのケーススタディを提供する。
論文 参考訳(メタデータ) (2020-10-09T16:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。