論文の概要: Morality is Contextual: Learning Interpretable Moral Contexts from Human Data with Probabilistic Clustering and Large Language Models
- arxiv url: http://arxiv.org/abs/2512.21439v1
- Date: Wed, 24 Dec 2025 22:16:04 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:53:29.834608
- Title: Morality is Contextual: Learning Interpretable Moral Contexts from Human Data with Probabilistic Clustering and Large Language Models
- Title(参考訳): 道徳は文脈である:確率的クラスタリングと大規模言語モデルを用いた人間のデータから解釈可能な道徳的文脈を学習する
- Authors: Geoffroy Morlat, Marceau Nahon, Augustin Chartouny, Raja Chatila, Ismael T. Freire, Mehdi Khamassi,
- Abstract要約: COMETH (Contextual Organization of Moral Evaluation from Textual Human inputs) は、確率論的文脈学習者とLLMに基づく意味論的抽象化と人間の道徳的評価を統合したフレームワークである。
我々は、6つのコアアクションにまたがる300のシナリオを経験的に基礎づけたデータセットをキュレートし、N=101の参加者から3つの判断を収集する。
前処理パイプラインは、LLMフィルタとMiniLMをK-meansで埋め込んだアクションを標準化し、堅牢で再現可能なコアアクションクラスタを生成する。
一般化モジュールは、予測を一般化し、説明するために、簡潔で非評価のバイナリコンテキスト特徴を抽出し、透明な可能性で特徴重みを学習する。
- 参考スコア(独自算出の注目度): 0.6003448250024276
- License:
- Abstract: Moral actions are judged not only by their outcomes but by the context in which they occur. We present COMETH (Contextual Organization of Moral Evaluation from Textual Human inputs), a framework that integrates a probabilistic context learner with LLM-based semantic abstraction and human moral evaluations to model how context shapes the acceptability of ambiguous actions. We curate an empirically grounded dataset of 300 scenarios across six core actions (violating Do not kill, Do not deceive, and Do not break the law) and collect ternary judgments (Blame/Neutral/Support) from N=101 participants. A preprocessing pipeline standardizes actions via an LLM filter and MiniLM embeddings with K-means, producing robust, reproducible core-action clusters. COMETH then learns action-specific moral contexts by clustering scenarios online from human judgment distributions using principled divergence criteria. To generalize and explain predictions, a Generalization module extracts concise, non-evaluative binary contextual features and learns feature weights in a transparent likelihood-based model. Empirically, COMETH roughly doubles alignment with majority human judgments relative to end-to-end LLM prompting (approx. 60% vs. approx. 30% on average), while revealing which contextual features drive its predictions. The contributions are: (i) an empirically grounded moral-context dataset, (ii) a reproducible pipeline combining human judgments with model-based context learning and LLM semantics, and (iii) an interpretable alternative to end-to-end LLMs for context-sensitive moral prediction and explanation.
- Abstract(参考訳): 道徳的行動は、結果だけでなく、それらが起こる状況によって判断される。
COMETH (Contextual Organization of Moral Evaluation from Textual Human inputs) は、確率論的文脈学習者とLLMに基づく意味論的抽象化と人間の道徳的評価を統合し、文脈があいまいな行動の受容性をどのように形成するかをモデル化するフレームワークである。
N=101の参加者から3つの判断(Blame/Neutral/Support)を収集する。
前処理パイプラインは、LLMフィルタとMiniLMをK-meansで埋め込んだアクションを標準化し、堅牢で再現可能なコアアクションクラスタを生成する。
次にCOMETHは、原則的分岐基準を用いて、人間の判断分布からオンラインのシナリオをクラスタリングすることで、行動固有の道徳的文脈を学習する。
一般化モジュールは、予測を一般化し、説明するために、簡潔で非評価のバイナリコンテキスト特徴を抽出し、透過的可能性に基づくモデルで特徴重みを学習する。
実証的には、COMETHは、エンド・ツー・エンドのLSMのプロンプト(平均で約60%、平均で約30%)に対して、ほとんどの人間の判断とほぼ一致し、どの文脈的特徴が予測を駆動するかを明らかにしている。
コントリビューションは以下の通り。
(i)経験的に基づいた道徳的文脈データセット
二 人間の判断とモデルに基づく文脈学習とLLM意味論を組み合わせた再現可能なパイプライン
三 文脈に敏感な道徳的予測及び説明のためのエンドツーエンドLLMの解釈可能な代替手段。
関連論文リスト
- Bayesian Evaluation of Large Language Model Behavior [11.847752638476257]
大規模言語モデルに基づくテキスト生成システムがどのように振る舞うかを評価することがますます重要である。
既存の評価手法は、しばしば統計的不確実性定量化を無視する。
本稿では,2値評価指標における不確かさの定量化にベイズ的手法を適用した2つのケーススタディを提案する。
論文 参考訳(メタデータ) (2025-11-04T19:51:46Z) - Advancing Automated Ethical Profiling in SE: a Zero-Shot Evaluation of LLM Reasoning [1.389448546196977]
大規模言語モデル(LLM)は、コード合成を超えて拡張されたタスクのためのソフトウェア工学(SE)ツールにますます統合されています。
ゼロショット設定で16LLMの倫理的推論能力を評価するための完全に自動化されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T13:28:26Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Log Probabilities Are a Reliable Estimate of Semantic Plausibility in Base and Instruction-Tuned Language Models [50.15455336684986]
意味的妥当性を評価するため,LogProbsの有効性と基本的なプロンプトを評価した。
LogProbsは、直接ゼロショットプロンプトよりも、より信頼性の高いセマンティックな妥当性を提供する。
我々は,プロンプトベースの評価の時代においても,LogProbsは意味的妥当性の有用な指標である,と結論付けた。
論文 参考訳(メタデータ) (2024-03-21T22:08:44Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。