論文の概要: Diverse Human Value Alignment for Large Language Models via Ethical Reasoning
- arxiv url: http://arxiv.org/abs/2511.00379v1
- Date: Sat, 01 Nov 2025 03:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.748223
- Title: Diverse Human Value Alignment for Large Language Models via Ethical Reasoning
- Title(参考訳): 倫理的推論による大規模言語モデルの多言語的価値アライメント
- Authors: Jiahao Wang, Songkai Xue, Jinghui Li, Xiaozhen Wang,
- Abstract要約: 大規模言語モデル(LLM)は、異なる地域や文化にわたる多様な人間の価値と整合する必要がある。
現在のアライメントアプローチは、真の倫理的理解よりも表面的整合性をもたらす。
確立された倫理的意思決定モデルに触発されたLLMのための新しい倫理的推論パラダイムを提案する。
- 参考スコア(独自算出の注目度): 13.406831056051034
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ensuring that Large Language Models (LLMs) align with the diverse and evolving human values across different regions and cultures remains a critical challenge in AI ethics. Current alignment approaches often yield superficial conformity rather than genuine ethical understanding, failing to address the complex, context-dependent nature of human values. In this paper, we propose a novel ethical reasoning paradigm for LLMs inspired by well-established ethical decision-making models, aiming at enhancing diverse human value alignment through deliberative ethical reasoning. Our framework consists of a structured five-step process, including contextual fact gathering, hierarchical social norm identification, option generation, multiple-lens ethical impact analysis, and reflection. This theory-grounded approach guides LLMs through an interpretable reasoning process that enhances their ability to understand regional specificities and perform nuanced ethical analysis, which can be implemented with either prompt engineering or supervised fine-tuning methods. We perform evaluations on the SafeWorld benchmark that specially designed for regional value alignment. Experimental results demonstrate our framework significantly improves LLM alignment with diverse human values compared to baseline methods, enabling more accurate social norm identification and more culturally appropriate reasoning. Our work provides a concrete pathway toward developing LLMs that align more effectively with the multifaceted values of global societies through interdisciplinary research.
- Abstract(参考訳): 大規模言語モデル(LLM)が、さまざまな地域や文化にまたがる多様で進化する人間の価値と一致していることを保証することは、AI倫理において重要な課題である。
現在のアライメントアプローチは、真の倫理的理解よりも表面的整合性をもたらすことが多く、人間の価値観の複雑で文脈に依存した性質に対処することができない。
本稿では,倫理的意思決定モデルに着想を得たLLMのための新たな倫理的推論パラダイムを提案する。
枠組みは、文脈的事実収集、階層的社会規範識別、オプション生成、多段階倫理的影響分析、リフレクションを含む、構造化された5段階のプロセスから構成される。
この理論に基づくアプローチは、LLMを解釈可能な推論プロセスを通じてガイドし、地域の特異性を理解し、ニュアンスな倫理的分析を行う能力を高める。
地域価値アライメントのために特別に設計されたSafeWorldベンチマークで評価を行う。
実験により,本フレームワークは,基準手法に比べて多種多様な人的価値との整合性を著しく改善し,より正確な社会的規範の同定と文化的に適切な推論を可能にした。
我々の研究は、学際的な研究を通じて、世界社会の多面的価値とより効果的に整合するLSMを開発するための具体的な道筋を提供する。
関連論文リスト
- Alignment and Safety in Large Language Models: Safety Mechanisms, Training Paradigms, and Emerging Challenges [47.14342587731284]
本調査では,大規模言語モデル(LLM)アライメントにおけるアライメント手法,トレーニングプロトコル,経験的発見について概観する。
我々は多種多様なパラダイムをまたいだアライメント手法の開発を分析し、コアアライメント目標間の基本的なトレードオフを特徴づける。
我々は、直接選好最適化(DPO)、構成AI、脳インスパイアされた方法、アライメント不確実性定量化(AUQ)など、最先端技術について議論する。
論文 参考訳(メタデータ) (2025-07-25T20:52:58Z) - LLM Ethics Benchmark: A Three-Dimensional Assessment System for Evaluating Moral Reasoning in Large Language Models [8.018569128518187]
本研究では,大規模言語モデル(LLM)の道徳的推論能力を体系的に評価するための新しい枠組みを確立する。
我々の枠組みは、3次元を通して人間の倫理基準との整合性を定量化することでこの問題に対処する。
このアプローチは、LLMの倫理的強みと弱みを正確に識別し、目標とする改善と社会的価値との整合性を高める。
論文 参考訳(メタデータ) (2025-05-01T20:36:19Z) - Addressing Moral Uncertainty using Large Language Models for Ethical Decision-Making [0.42481744176244507]
本稿では,タスクに依存しない倫理的レイヤを用いて,事前学習された強化学習(RL)モデルを洗練する倫理的意思決定フレームワークを提案する。
倫理的階層は、Jensen-Shannon Divergence と Dempster-Shafer Theory を用いて複数の道徳的観点から信念のスコアを集約する。
この統合学習フレームワークは、複雑な環境においてRLエージェントが道徳的不確実性をナビゲートし、様々なタスクにおいて道徳的に健全な決定を可能にする。
論文 参考訳(メタデータ) (2025-02-17T19:05:55Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Integrating Emotional and Linguistic Models for Ethical Compliance in Large Language Models [2.5200794639628032]
本研究は、感情や倫理に関する言語行動をよりよく管理するために、大規模言語モデル(LLM)の高度な方法論を開発する。
我々は,LLMがグローバルな人的価値を内在化し,反映する能力を高めるための,敵対的枠組みであるDIKEを紹介する。
論文 参考訳(メタデータ) (2024-05-11T19:26:00Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - A Moral Imperative: The Need for Continual Superalignment of Large Language Models [1.0499611180329806]
スーパーアライメント(Superalignment)は、超知能AIシステムが人間の価値観や目標に応じて行動することを確実にする理論フレームワークである。
本稿では,AIシステム,特に大規模言語モデル(LLM)における生涯的スーパーアライメントの実現に関わる課題について検討する。
論文 参考訳(メタデータ) (2024-03-13T05:44:50Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。