論文の概要: The Moral Consistency Pipeline: Continuous Ethical Evaluation for Large Language Models
- arxiv url: http://arxiv.org/abs/2512.03026v1
- Date: Tue, 02 Dec 2025 18:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.01421
- Title: The Moral Consistency Pipeline: Continuous Ethical Evaluation for Large Language Models
- Title(参考訳): Moral Consistency Pipeline: 大規模言語モデルに対する継続的倫理的評価
- Authors: Saeid Jamshidi, Kawser Wazed Nafi, Arghavan Moradi Dakhel, Negar Shahabi, Foutse Khomh,
- Abstract要約: 本研究では,LLMの道徳的安定性を継続的に評価・解釈する,データセットフリーでクローズドループフレームワークであるMoCoPを提案する。
MoCoPは、(i)語彙整合性分析、(ii)意味的リスク推定、(iii)自己維持型アーキテクチャにおける推論に基づく判断モデリングの3つの支持層を組み合わせる。
- 参考スコア(独自算出の注目度): 5.636979853716324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement and adaptability of Large Language Models (LLMs) highlight the need for moral consistency, the capacity to maintain ethically coherent reasoning across varied contexts. Existing alignment frameworks, structured approaches designed to align model behavior with human ethical and social norms, often rely on static datasets and post-hoc evaluations, offering limited insight into how ethical reasoning may evolve across different contexts or temporal scales. This study presents the Moral Consistency Pipeline (MoCoP), a dataset-free, closed-loop framework for continuously evaluating and interpreting the moral stability of LLMs. MoCoP combines three supporting layers: (i) lexical integrity analysis, (ii) semantic risk estimation, and (iii) reasoning-based judgment modeling within a self-sustaining architecture that autonomously generates, evaluates, and refines ethical scenarios without external supervision. Our empirical results on GPT-4-Turbo and DeepSeek suggest that MoCoP effectively captures longitudinal ethical behavior, revealing a strong inverse relationship between ethical and toxicity dimensions (correlation rET = -0.81, p value less than 0.001) and a near-zero association with response latency (correlation rEL approximately equal to 0). These findings demonstrate that moral coherence and linguistic safety tend to emerge as stable and interpretable characteristics of model behavior rather than short-term fluctuations. Furthermore, by reframing ethical evaluation as a dynamic, model-agnostic form of moral introspection, MoCoP offers a reproducible foundation for scalable, continuous auditing and advances the study of computational morality in autonomous AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩と適応性は、道徳的一貫性の必要性、様々な文脈で倫理的に一貫性のある推論を維持する能力を強調している。
既存のアライメントフレームワークである構造化アプローチは、モデル行動と人間の倫理的・社会的規範を結びつけるように設計されており、静的なデータセットとポストホックな評価に依存しており、倫理的推論が異なる文脈や時間的スケールでどのように進化するかについての限られた洞察を与えている。
本研究では,LLMの道徳的安定性を継続的に評価・解釈する,データセットフリーでクローズドループフレームワークであるMoCoPを提案する。
MoCoPは3つのレイヤを結合する。
(i)語彙整合性解析
(二)意味リスク推定、及び
三 外部の監督なしに倫理的シナリオを自律的に生成し、評価し、洗練する自己維持型アーキテクチャにおける推論に基づく判断モデリング。
GPT-4-Turbo と DeepSeek の実証結果から,MoCoP は倫理的・毒性的次元(相関 rET = -0.81, p 値 0.001 未満)と応答遅延(相関 rEL と 0 とほぼ等しい)の逆関係を効果的に捉えることが示唆された。
これらの結果から,道徳的コヒーレンスと言語的安全性は,短期的変動よりもモデル行動の安定的かつ解釈可能な特性として現れる傾向が示唆された。
さらに、倫理的評価を動的でモデルに依存しない道徳的内観として再考することで、MoCoPはスケーラブルで継続的な監査のための再現可能な基盤を提供し、自律型AIシステムにおける計算的道徳の研究を進める。
関連論文リスト
- DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Advancing Automated Ethical Profiling in SE: a Zero-Shot Evaluation of LLM Reasoning [1.389448546196977]
大規模言語モデル(LLM)は、コード合成を超えて拡張されたタスクのためのソフトウェア工学(SE)ツールにますます統合されています。
ゼロショット設定で16LLMの倫理的推論能力を評価するための完全に自動化されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T13:28:26Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and Reliability [70.4107059502882]
有理数拡張による学習言語モデルは、多くの既存の作品において有益であることが示されている。
モデル性能に対する合理的性の影響を徹底的に調査するため、包括的調査を行う。
論文 参考訳(メタデータ) (2025-05-30T02:39:37Z) - The Convergent Ethics of AI? Analyzing Moral Foundation Priorities in Large Language Models with a Multi-Framework Approach [6.0972634521845475]
本稿では,Reasoning and Intrinsic Moral Evaluation (PRIME)フレームワークについて紹介する。
PRIMEは、基本的な倫理的側面をまたいだ倫理的優先順位を分析するための包括的な方法論である。
我々はこのフレームワークを6つの主要な大規模言語モデル (LLM) に適用する。
論文 参考訳(メタデータ) (2025-04-27T14:26:48Z) - Addressing Moral Uncertainty using Large Language Models for Ethical Decision-Making [0.42481744176244507]
本稿では,タスクに依存しない倫理的レイヤを用いて,事前学習された強化学習(RL)モデルを洗練する倫理的意思決定フレームワークを提案する。
倫理的階層は、Jensen-Shannon Divergence と Dempster-Shafer Theory を用いて複数の道徳的観点から信念のスコアを集約する。
この統合学習フレームワークは、複雑な環境においてRLエージェントが道徳的不確実性をナビゲートし、様々なタスクにおいて道徳的に健全な決定を可能にする。
論文 参考訳(メタデータ) (2025-02-17T19:05:55Z) - The Moral Mind(s) of Large Language Models [0.0]
大規模言語モデル (LLM) は、その決定を導く道徳的嗜好の一貫性のある構造を示す。
確率論的合理性テストを用いて、各主要プロバイダの少なくとも1つのモデルが、ほぼ安定した道徳的嗜好と整合した振る舞いを示した。
そして、これらのユーティリティ関数を推定し、ほとんどのモデルが中立的な道徳的スタンスの周りに集まっていることを発見した。
論文 参考訳(メタデータ) (2024-11-19T15:40:16Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。