論文の概要: Who Gets the Kidney? Human-AI Alignment, Indecision, and Moral Values
- arxiv url: http://arxiv.org/abs/2506.00079v1
- Date: Fri, 30 May 2025 01:23:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.271491
- Title: Who Gets the Kidney? Human-AI Alignment, Indecision, and Moral Values
- Title(参考訳): 誰が子供を得るのか? 人間とAIのアライメント、不確定、道徳的価値
- Authors: John P. Dickerson, Hadi Hosseini, Samarth Khanna, Leona Pierce,
- Abstract要約: 本研究では,Large Language Models (LLMs) が,様々な属性の優先順位付けにおいて,人的価値との相違を示すことを示す。
少ないサンプルを用いた低ランク教師あり微調整は、決定整合性の向上と不確定性モデリングの校正に有効であることを示す。
- 参考スコア(独自算出の注目度): 36.47201247038004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid integration of Large Language Models (LLMs) in high-stakes decision-making -- such as allocating scarce resources like donor organs -- raises critical questions about their alignment with human moral values. We systematically evaluate the behavior of several prominent LLMs against human preferences in kidney allocation scenarios and show that LLMs: i) exhibit stark deviations from human values in prioritizing various attributes, and ii) in contrast to humans, LLMs rarely express indecision, opting for deterministic decisions even when alternative indecision mechanisms (e.g., coin flipping) are provided. Nonetheless, we show that low-rank supervised fine-tuning with few samples is often effective in improving both decision consistency and calibrating indecision modeling. These findings illustrate the necessity of explicit alignment strategies for LLMs in moral/ethical domains.
- Abstract(参考訳): 大規模言語モデル(LLM)のハイテイクな意思決定への迅速な統合 -- ドナーオルガンのような希少なリソースの割り当てなど -- は、人間の道徳的価値観との整合性について批判的な疑問を提起する。
腎アロケーションシナリオにおけるヒトの嗜好に対するいくつかの顕著なLDMの挙動を系統的に評価し,LLMが重要であることを示す。
一 諸属性の優先順位付けにおける人的価値からのスターク偏差を示すこと。
二 人間とは対照的に、LLMは、代替的不確定機構(例えば、コインフリップ)が提供されても、決定論的決定を選択することは滅多にない。
しかし,少数サンプルの低ランク教師付き微調整は,決定整合性の向上と不確定性モデリングの校正に有効であることが示唆された。
これらの知見は、道徳的・倫理的領域におけるLSMの明確なアライメント戦略の必要性を示唆している。
関連論文リスト
- The Staircase of Ethics: Probing LLM Value Priorities through Multi-Step Induction to Complex Moral Dilemmas [20.792208554628367]
我々は多段階モラルジレンマデータセットを導入し,3,302個の5段階ジレンマのLLMの進化的道徳的判断を評価する。
このフレームワークは、LLMがジレンマをエスカレートする際の道徳的推論をどのように調整するかを、きめ細やかな動的解析を可能にする。
我々の研究は、動的で文脈に配慮した評価パラダイムへのシフトを呼びかけ、LLMのより人間らしく価値に敏感な開発への道を開いた。
論文 参考訳(メタデータ) (2025-05-23T17:59:50Z) - Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。
本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文 参考訳(メタデータ) (2025-02-01T04:24:47Z) - Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T01:29:46Z) - Large-scale moral machine experiment on large language models [0.0]
我々は,52種類の大規模言語モデル(LLM)の自律走行シナリオにおける道徳的判断を評価する。
プロプライエタリなモデルとオープンソースモデルは100億以上のパラメータを持ち、人間の判断と比較的密接な一致を示した。
しかし、モデル更新は人間の嗜好との整合性を一貫して改善しておらず、多くのLCMは特定の倫理的原則に過度に重点を置いている。
論文 参考訳(メタデータ) (2024-11-11T08:36:49Z) - Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。
ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。
我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文 参考訳(メタデータ) (2024-10-09T15:02:34Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。