論文の概要: CogniAlign: Survivability-Grounded Multi-Agent Moral Reasoning for Safe and Transparent AI
- arxiv url: http://arxiv.org/abs/2509.13356v1
- Date: Sun, 14 Sep 2025 18:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.552921
- Title: CogniAlign: Survivability-Grounded Multi-Agent Moral Reasoning for Safe and Transparent AI
- Title(参考訳): CogniAlign:安全で透明なAIのための生存可能性を取り巻くマルチエージェントのモラル推論
- Authors: Hasin Jawad Ali, Ilhamul Azam, Ajwad Abrar, Md. Kamrul Hasan, Hasan Mahmud,
- Abstract要約: 本稿では,自然主義的道徳的リアリズムに基づくマルチエージェント検討フレームワークであるCogniAlignを紹介する。
古典的, 斬新な道徳的質問に対して評価し, GPT-4oと比較した。
結果は、CogniAlignが60以上の道徳的問題で一貫してベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 2.0889405822191334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The challenge of aligning artificial intelligence (AI) with human values persists due to the abstract and often conflicting nature of moral principles and the opacity of existing approaches. This paper introduces CogniAlign, a multi-agent deliberation framework based on naturalistic moral realism, that grounds moral reasoning in survivability, defined across individual and collective dimensions, and operationalizes it through structured deliberations among discipline-specific scientist agents. Each agent, representing neuroscience, psychology, sociology, and evolutionary biology, provides arguments and rebuttals that are synthesized by an arbiter into transparent and empirically anchored judgments. We evaluate CogniAlign on classic and novel moral questions and compare its outputs against GPT-4o using a five-part ethical audit framework. Results show that CogniAlign consistently outperforms the baseline across more than sixty moral questions, with average performance gains of 16.2 points in analytic quality, 14.3 points in breadth, and 28.4 points in depth of explanation. In the Heinz dilemma, for example, CogniAlign achieved an overall score of 89.2 compared to GPT-4o's 69.2, demonstrating a decisive advantage in handling moral reasoning. By reducing black-box reasoning and avoiding deceptive alignment, CogniAlign highlights the potential of interdisciplinary deliberation as a scalable pathway for safe and transparent AI alignment.
- Abstract(参考訳): 人工知能(AI)と人間の価値を結びつけるという課題は、道徳原理の抽象的でしばしば矛盾する性質と既存のアプローチの不透明さのために継続する。
本稿では,自然主義的道徳的リアリズムに基づくマルチエージェントの議論フレームワークであるCogniAlignを紹介する。
神経科学、心理学、社会学、進化生物学を代表する各エージェントは、アービターによって透明で経験的に固定された判断に合成される議論と反論を提供する。
我々はCogniAlignを古典的・斬新な道徳的質問に対して評価し、そのアウトプットを5部構成の倫理的監査フレームワークを用いてGPT-4oと比較した。
結果は、コグニアリンは60以上の道徳的問題で一貫してベースラインを上回り、平均的なパフォーマンス向上は16.2ポイント、幅14.3ポイント、説明深度28.4ポイントであることを示している。
例えばハインツ・ジレンマでは、コグニアリンは GPT-4o の 69.2 と比較して89.2 のスコアを獲得し、道徳的推論を扱う上で決定的な優位性を示した。
ブラックボックスの推論を減らし、偽のアライメントを避けることで、CogniAlign氏は、安全で透明なAIアライメントのためのスケーラブルなパスとして、学際的な議論の可能性を強調している。
関連論文リスト
- The Morality of Probability: How Implicit Moral Biases in LLMs May Shape the Future of Human-AI Symbiosis [33.50773360893016]
本稿では,先導的なAIシステムが道徳的成果をどのように優先するかを検討する。
ケアとヴィルトゥーの価値は最も道徳的に評価され、リバタリアンの選択は一貫して罰せられていた。
また、AIを透明で整合性があり、将来的な共生へと導くための重要な設計原則として、説明可能性と文化意識の必要性を強調している。
論文 参考訳(メタデータ) (2025-09-12T14:37:57Z) - The next question after Turing's question: Introducing the Grow-AI test [51.56484100374058]
本研究は,GROW-AIと呼ばれる人工知能評価の枠組みを拡張することを目的としている。
GROW-AIは、チューリングテストの自然な後継者である"Can Machine grow up?
この作品の独創性は、人間の世界から人工知能への「成長」過程の概念的な変換にある。
論文 参考訳(メタデータ) (2025-08-22T10:19:42Z) - PRISM: Perspective Reasoning for Integrated Synthesis and Mediation as a Multi-Perspective Framework for AI Alignment [0.0]
Perspective Reasoning for Integrated Synthesis and Mediation (PRISM)は、AIアライメントにおける永続的な課題に対処するフレームワークである。
PRISMは道徳的懸念を7つの「基本世界観」にまとめ、それぞれが人間の道徳的認知の異なる次元を捉えていると仮定している。
現実の展開や形式的検証など,今後の方向性を概説するとともに,マルチパースペクティブな合成とコンフリクトの仲介に重点を置きながら,今後の方向性を概説する。
論文 参考訳(メタデータ) (2025-02-05T02:13:57Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement
Learning [4.2050490361120465]
ボトムアップ学習アプローチは、AIエージェントの倫理的行動の研究と開発にもっと適しているかもしれない。
本稿では,道徳理論に基づく報酬を内在的に動機づけたRLエージェントによる選択の体系的分析を行う。
我々は、異なる種類の道徳が協力、欠陥、搾取の出現に与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-20T09:36:42Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。