論文の概要: A Three-Branch Checks-and-Balances Frameworkfor Context-Aware Ethical Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.00136v1
- Date: Fri, 31 Jan 2025 19:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:47.914822
- Title: A Three-Branch Checks-and-Balances Frameworkfor Context-Aware Ethical Alignment of Large Language Models
- Title(参考訳): 大規模言語モデルの文脈を考慮した倫理的アライメントのための三分岐チェック・アンド・バランサフレームワーク
- Authors: Edward Y. Chang,
- Abstract要約: 本稿では,Large Language Models (LLM) の倫理的アライメントのための3分岐チェック・アンド・バランスフレームワークを提案する。
LLMは知識生成の執行部門、DIKEは倫理的ガードレールを確立する立法部門、ERISは文脈解釈の司法部門である。
- 参考スコア(独自算出の注目度): 2.5200794639628032
- License:
- Abstract: This paper introduces a three-branch checks-and-balances framework for ethical alignment of Large Language Models (LLMs), inspired by governmental systems. It implements three independent yet interacting components: LLMs as the executive branch for knowledge generation, DIKE as the legislative branch establishing ethical guardrails, and ERIS as the judicial branch for contextual interpretation. The adversarial DIKE-ERIS duality enables adaptation to diverse cultural contexts while upholding consistent ethical principles. This architecture addresses limitations of reinforcement learning with human feedback (RLHF) by providing interpretable, adaptable, and culturally-aware ethical reasoning. Through self-supervised learning and adversarial testing, our framework demonstrates how emotional modeling can guide linguistic behaviors toward ethical outcomes while preserving independence across knowledge generation, ethical oversight, and contextual interpretation.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) の倫理的アライメントのための3分岐チェック・アンド・バランスフレームワークを提案する。
LLMは知識生成の執行部門、DIKEは倫理的ガードレールを確立する立法部門、ERISは文脈解釈の司法部門である。
敵対的なDIKE-ERIS双対性は、一貫した倫理的原則を維持しながら、多様な文化的文脈への適応を可能にする。
このアーキテクチャは、人間のフィードバックによる強化学習(RLHF)の限界に対処し、解釈可能で適応可能で文化的に認識された倫理的推論を提供する。
自己指導型学習と敵対的テストを通じて、我々のフレームワークは、感情的モデリングが言語行動をどのように倫理的結果に導くかを示しながら、知識生成、倫理的監視、文脈的解釈を通して独立性を維持する。
関連論文リスト
- The Moral Foundations Weibo Corpus [0.0]
道徳的な感情は、オンライン環境とオフライン環境の両方に影響し、行動スタイルと相互作用パターンを形成する。
既存のコーパスは価値はあるものの、しばしば言語的な制限に直面している。
このコーパスは、Weiboに関する25,671の中国語のコメントで構成され、6つの多様な話題領域を含んでいる。
論文 参考訳(メタデータ) (2024-11-14T17:32:03Z) - Integrating Emotional and Linguistic Models for Ethical Compliance in Large Language Models [2.5200794639628032]
本研究は、感情や倫理に関する言語行動をよりよく管理するために、大規模言語モデル(LLM)の高度な方法論を開発する。
我々は,LLMがグローバルな人的価値を内在化し,反映する能力を高めるための,敵対的枠組みであるDIKEを紹介する。
論文 参考訳(メタデータ) (2024-05-11T19:26:00Z) - Towards Responsible AI in Banking: Addressing Bias for Fair
Decision-Making [69.44075077934914]
責任AI(Responsible AI)は、企業文化の発展におけるバイアスに対処する重要な性質を強調している。
この論文は、バイアスを理解すること、バイアスを緩和すること、バイアスを説明することの3つの基本的な柱に基づいて構成されている。
オープンソースの原則に従って、アクセス可能なPythonパッケージとして、Bias On DemandとFairViewをリリースしました。
論文 参考訳(メタデータ) (2024-01-13T14:07:09Z) - Social, Legal, Ethical, Empathetic, and Cultural Rules: Compilation and Reasoning (Extended Version) [8.425874385897831]
SLEEC(社会的、法的、倫理的、共感的、文化的)ルールは、AIベースの自律システムが従うべき規則の定式化、検証、実施を促進することを目的としている。
AIシステムで効果的な使用を可能にするためには、これらのルールを自動推論をサポートする形式言語に体系的に翻訳する必要がある。
本研究ではまず,SLEEC規則の古典論理への翻訳を正当化するSLEEC規則パターンの言語学的解析を行う。
論文 参考訳(メタデータ) (2023-12-15T11:23:49Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - On Fairness and Interpretability [8.732874144276352]
我々は,様々な次元における公平性と解釈可能性の違いを論じ,解明する。
今後、倫理的AIを開発するための原則に基づくフレームワークを2つ開発する。
論文 参考訳(メタデータ) (2021-06-24T18:48:46Z) - Ethical-Advice Taker: Do Language Models Understand Natural Language
Interventions? [62.74872383104381]
読解システムにおける自然言語介入の有効性について検討する。
本稿では,新たな言語理解タスクであるLingguistic Ethical Interventions (LEI)を提案する。
論文 参考訳(メタデータ) (2021-06-02T20:57:58Z) - Ethics-Based Auditing to Develop Trustworthy AI [0.0]
倫理に基づく監査は、意思決定の質の向上、ユーザの満足度の向上、成長可能性の解放、法律作成の有効化、人間の苦悩の緩和を可能にすると論じる。
倫理に基づく監査は、継続的かつ建設的なプロセスの形をとり、システムの観点から倫理的なアライメントにアプローチし、倫理的に望ましい行動のための公共政策とインセンティブに整合する必要があります。
論文 参考訳(メタデータ) (2021-04-30T11:39:40Z) - Case Study: Deontological Ethics in NLP [119.53038547411062]
我々はNLPの観点から1つの倫理理論、すなわち非オントロジー的倫理について研究する。
特に、インフォームド・コンセントを通じて、一般化原則と自律性への敬意に焦点を当てる。
NLPシステムでこれらの原則をどのように利用できるかを示すための4つのケーススタディを提供する。
論文 参考訳(メタデータ) (2020-10-09T16:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。