論文の概要: Dropouts in Confidence: Moral Uncertainty in Human-LLM Alignment
- arxiv url: http://arxiv.org/abs/2511.13290v1
- Date: Mon, 17 Nov 2025 12:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.201104
- Title: Dropouts in Confidence: Moral Uncertainty in Human-LLM Alignment
- Title(参考訳): 信頼の低下:人間-LLMアライメントにおける道徳的不確実性
- Authors: Jea Kwon, Luiz Felipe Vecchietti, Sungwon Park, Meeyoung Cha,
- Abstract要約: 人間は道徳的なジレンマに直面したとき、かなりの不確実性を示す。
近年の研究では、機械生成応答の自信過剰な傾向が確認されている。
この研究は、古典的なトロリー問題において、不確実性が道徳的決定にどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 18.3236201998655
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans display significant uncertainty when confronted with moral dilemmas, yet the extent of such uncertainty in machines and AI agents remains underexplored. Recent studies have confirmed the overly confident tendencies of machine-generated responses, particularly in large language models (LLMs). As these systems are increasingly embedded in ethical decision-making scenarios, it is important to understand their moral reasoning and the inherent uncertainties in building reliable AI systems. This work examines how uncertainty influences moral decisions in the classical trolley problem, analyzing responses from 32 open-source models and 9 distinct moral dimensions. We first find that variance in model confidence is greater across models than within moral dimensions, suggesting that moral uncertainty is predominantly shaped by model architecture and training method. To quantify uncertainty, we measure binary entropy as a linear combination of total entropy, conditional entropy, and mutual information. To examine its effects, we introduce stochasticity into models via "dropout" at inference time. Our findings show that our mechanism increases total entropy, mainly through a rise in mutual information, while conditional entropy remains largely unchanged. Moreover, this mechanism significantly improves human-LLM moral alignment, with correlations in mutual information and alignment score shifts. Our results highlight the potential to better align model-generated decisions and human preferences by deliberately modulating uncertainty and reducing LLMs' confidence in morally complex scenarios.
- Abstract(参考訳): 人間は道徳的なジレンマに直面した際、かなりの不確実性を示すが、機械やAIエージェントにおけるそのような不確実性の範囲は未解明のままである。
近年の研究では、特に大規模言語モデル(LLM)において、機械生成応答の過度に自信のある傾向が確認されている。
これらのシステムは、倫理的な意思決定シナリオにますます組み込まれているため、彼らの道徳的推論と信頼性の高いAIシステム構築における固有の不確実性を理解することが重要である。
本研究は,32個のオープンソースモデルと9つの異なる道徳的次元からの応答を分析し,古典的トロリー問題における道徳的決定に不確実性がどう影響するかを考察する。
まず、モデルの信頼性のばらつきは、道徳的次元よりもモデル間で大きく、モラルの不確実性はモデルアーキテクチャとトレーニング手法によって主に形作られることを示唆する。
不確かさを定量化するため、二元エントロピーを全エントロピー、条件エントロピー、相互情報の線形結合として測定する。
その効果を調べるために,推論時の「ドロップアウト」を通じてモデルに確率性を導入する。
本研究は,条件付きエントロピーがほとんど変わらず,相互情報の増大によって,我々の機構が全エントロピーを増大させることを示唆するものである。
さらに、このメカニズムは、相互情報とアライメントスコアシフトの相関を伴って、人間とLLMのモラルアライメントを大幅に改善する。
本研究は,不確実性を意図的に調整し,道徳的に複雑なシナリオにおけるLLMの信頼性を低下させることにより,モデル生成決定と人的嗜好の整合性を向上する可能性を強調した。
関連論文リスト
- On the Convergence of Moral Self-Correction in Large Language Models [26.724972162483855]
大きな言語モデル(LLM)は、そのように指示されたときの応答を改善することができる。
LLMは、内在的な自己補正と呼ばれるプロセスである応答品質を改善するために、内部知識に頼らなければならない。
我々は,多ラウンド相互作用による性能収束という,本質的な自己補正のキーとなる特徴を明らかにする。
論文 参考訳(メタデータ) (2025-10-08T17:46:27Z) - Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language Models [14.425718737962102]
本稿では,複数の LLM の道徳的判断を集合的に定式化した道徳的判断に合成する枠組みを提案する。
我々の集約メカニズムは、連続的な道徳的受容可能性スコア(バイナリラベルの他に)を集合的確率に融合させる。
大規模社会道徳ジレンマデータセットの実験は、我々のアプローチが堅牢なコンセンサスを構築し、個々のモデル忠実性を改善することを示している。
論文 参考訳(メタデータ) (2025-06-17T15:22:21Z) - Information Retrieval Induced Safety Degradation in AI Agents [52.15553901577888]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索可能なエージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索可能でますます自律的なAIシステムの公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - Superficial Self-Improved Reasoners Benefit from Model Merging [49.09091498084467]
高品質データコーパスの合成ソリューションとしての自己改善
特に,本分析の結果から,LMがドメイン内推論の精度を向上したとしても,それらの一般的な推論能力を損なうことが判明した。
提案手法は,オリジナルモデルと自己改善モデルとの重みを戦略的に組み合わせ,一般化を保ちながら反復モデルマージング(IMM)を提案する。
論文 参考訳(メタデータ) (2025-03-03T22:41:25Z) - Uncertainty Quantification for Forward and Inverse Problems of PDEs via
Latent Global Evolution [110.99891169486366]
本稿では,効率的かつ高精度な不確実性定量化を深層学習に基づく代理モデルに統合する手法を提案する。
本手法は,フォワード問題と逆問題の両方に対して,堅牢かつ効率的な不確実性定量化機能を備えたディープラーニングに基づく代理モデルを提案する。
提案手法は, 長期予測を含むシナリオに適合し, 拡張された自己回帰ロールアウトに対する不確かさの伝播に優れる。
論文 参考訳(メタデータ) (2024-02-13T11:22:59Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - The Unreasonable Effectiveness of Deep Evidential Regression [72.30888739450343]
不確実性を考慮した回帰ベースニューラルネットワーク(NN)による新しいアプローチは、従来の決定論的手法や典型的なベイズ的NNよりも有望であることを示している。
我々は、理論的欠点を詳述し、合成および実世界のデータセットのパフォーマンスを分析し、Deep Evidential Regressionが正確な不確実性ではなく定量化であることを示す。
論文 参考訳(メタデータ) (2022-05-20T10:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。