論文の概要: Morality in AI. A plea to embed morality in LLM architectures and frameworks
- arxiv url: http://arxiv.org/abs/2511.20689v1
- Date: Fri, 21 Nov 2025 09:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.74931
- Title: Morality in AI. A plea to embed morality in LLM architectures and frameworks
- Title(参考訳): AIにおけるモラル - LLMアーキテクチャとフレームワークにモラルを組み込むために
- Authors: Gunter Bombaerts, Bram Delisse, Uzay Kaymak,
- Abstract要約: 大きな言語モデル(LLM)は、人間の意思決定と振る舞いを仲介する。
本稿では,トランスフォーマーモデルの設計機構とフレームワークに直接,道徳的意味処理を組み込む手法を提案する。
- 参考スコア(独自算出の注目度): 0.13381749415517016
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) increasingly mediate human decision-making and behaviour. Ensuring LLM processing of moral meaning therefore has become a critical challenge. Current approaches rely predominantly on bottom-up methods such as fine-tuning and reinforcement learning from human feedback. We propose a fundamentally different approach: embedding moral meaning processing directly into the architectural mechanisms and frameworks of transformer-based models through top-down design principles. We first sketch a framework that conceptualizes attention as a dynamic interface mediating between structure and processing, contrasting with existing linear attention frameworks in psychology. We start from established biological-artificial attention analogies in neural architecture design to improve cognitive processing. We extend this analysis to moral processing, using Iris Murdoch's theory of loving attention (sustained, just observation that enables moral transformation by reseeing others with clarity and compassion) to philosophically discuss functional analogies between human and LLM moral processing. We formulate and evaluate potentially promising technical operationalizations to embed morality in LLM architectures and frameworks. We acknowledge the limitations of our exploration and give three key contributions. (1) We conceptualize attention as a dynamic system mechanism mediating between structure and processing. (2) Drawing on the Murdoch notion of loving attention, we outline technical pathways for embedding morality in LLMs, through modified training objectives, runtime weight adjustments, and architectural refinements to attention. (3) We argue that integrating morality into architectures and frameworks complements external, constraint-based methods. We conclude with a call for collaboration between transformer designers and philosophers engaged in AI ethics.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間の意思決定と振る舞いを仲介する。
したがって、道徳的意味のLLM処理を保証することは、重要な課題となっている。
現在のアプローチは、人間のフィードバックからの微調整や強化学習のようなボトムアップ手法に大きく依存している。
モラルな意味の処理を、トップダウン設計原則を通じてトランスフォーマーベースのモデルのアーキテクチャメカニズムとフレームワークに直接組み込むという、根本的に異なるアプローチを提案する。
まず,構造と処理を仲介する動的インタフェースとして注意を概念化するフレームワークを,心理学における既存の線形注意フレームワークとは対照的にスケッチする。
我々は、認知処理を改善するために、ニューラルネットワーク設計において確立された生物学的・人工的な類似点から始める。
我々は、この分析を道徳的処理に拡張し、イリス・マードック(Iris Murdoch)の愛の注意理論(Clarity and Conpassionで他者を見直すことによって道徳的変革を可能にする観察)を用いて、人間とLLMの道徳的処理の間の機能的類似を哲学的に議論する。
LLMアーキテクチャやフレームワークにモラルを埋め込むために,潜在的に有望な技術的運用を定式化し,評価する。
探索の限界を認め、重要な貢献を3つ与えます。
1) 構造と処理を仲介する動的システム機構としての注意を概念化する。
2) マードックの「愛すべき注意」の概念に基づいて, 学習目標の変更, 実行時の重量調整, 注意を喚起するための建築改良を通じて, 道徳をLLMに組み込むための技術的な道筋を概説する。
(3) モラルをアーキテクチャやフレームワークに組み込むことは、外部制約ベースの手法を補完する、と我々は主張する。
我々は、トランスフォーマーデザイナとAI倫理に携わる哲学者の協力を呼び掛けて結論付けた。
関連論文リスト
- AI Safety, Alignment, and Ethics (AI SAE) [0.0]
モラルノルム(英: Moral norms)は、選択圧力下での協調動作を可能にする適応的なメカニズムである。
現在のアライメントアプローチは倫理をポストホックとして追加し、協力のための進化戦略として組み込むのではなく、外部の制約として扱う。
モラル表現学習をシステムレベルの設計と制度的なガバナンスに結びつけるガバナンス-埋め込み-表現パイプラインを提案する。
論文 参考訳(メタデータ) (2025-09-28T20:52:36Z) - Normative Moral Pluralism for AI: A Framework for Deliberation in Complex Moral Contexts [0.0]
本論文で提案される概念的枠組みは、熟考的道徳的推論システムの開発に焦点を当てている。
多様な倫理的視点から引き出された規範的議論を生成、フィルタリング、重み付けすることで、複雑な道徳的状況を処理するように設計されている。
論文 参考訳(メタデータ) (2025-08-10T14:52:23Z) - Understanding Transformers through the Lens of Pavlovian Conditioning [0.5076419064097734]
本稿では,注意のコア計算をパブロヴィアン条件付けとして再解釈する理論的枠組みを提案する。
注意点のクエリ,キー,値が,古典的条件付けの3つの要素にマッピング可能であることを示す。
我々の枠組みは、この線形化モデルに基づくいくつかの理論的洞察をもたらす。
論文 参考訳(メタデータ) (2025-08-05T05:00:00Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - PRISM: Perspective Reasoning for Integrated Synthesis and Mediation as a Multi-Perspective Framework for AI Alignment [0.0]
Perspective Reasoning for Integrated Synthesis and Mediation (PRISM)は、AIアライメントにおける永続的な課題に対処するフレームワークである。
PRISMは道徳的懸念を7つの「基本世界観」にまとめ、それぞれが人間の道徳的認知の異なる次元を捉えていると仮定している。
現実の展開や形式的検証など,今後の方向性を概説するとともに,マルチパースペクティブな合成とコンフリクトの仲介に重点を置きながら,今後の方向性を概説する。
論文 参考訳(メタデータ) (2025-02-05T02:13:57Z) - Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
連続体としてモデル化された機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。
我々は、適応可能で堅牢だが制御可能で解釈可能なエージェントシステムを構築するために、よりハイブリッドなソリューションが必要であると論じている。
論文 参考訳(メタデータ) (2023-12-04T11:46:34Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Investigating Bi-Level Optimization for Learning and Vision from a
Unified Perspective: A Survey and Beyond [114.39616146985001]
機械学習やコンピュータビジョンの分野では、モチベーションやメカニズムが異なるにもかかわらず、複雑な問題の多くは、一連の密接に関連するサブプロトコルを含んでいる。
本稿では,BLO(Bi-Level Optimization)の観点から,これらの複雑な学習と視覚問題を一様に表現する。
次に、値関数に基づく単一レベル再構成を構築し、主流勾配に基づくBLO手法を理解し、定式化するための統一的なアルゴリズムフレームワークを確立する。
論文 参考訳(メタデータ) (2021-01-27T16:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。