論文の概要: Scaling Laws for Moral Machine Judgment in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.17637v1
- Date: Sun, 25 Jan 2026 00:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.104078
- Title: Scaling Laws for Moral Machine Judgment in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるモーラルマシン判断のスケーリング法則
- Authors: Kazuhiro Takemoto,
- Abstract要約: Moral Machineフレームワークを用いて75の大規模言語モデル構成を評価する。
人間の嗜好からの距離と一貫した権力関係を観察する。
拡張推論モデルは、スケール効果以上の16%の改善を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous systems increasingly require moral judgment capabilities, yet whether these capabilities scale predictably with model size remains unexplored. We systematically evaluate 75 large language model configurations (0.27B--1000B parameters) using the Moral Machine framework, measuring alignment with human preferences in life-death dilemmas. We observe a consistent power-law relationship with distance from human preferences ($D$) decreasing as $D \propto S^{-0.10\pm0.01}$ ($R^2=0.50$, $p<0.001$) where $S$ is model size. Mixed-effects models confirm this relationship persists after controlling for model family and reasoning capabilities. Extended reasoning models show additional 16\% improvement beyond scale effects. The relationship holds across diverse architectures, while variance decreases at larger scales, indicating systematic emergence of more reliable moral judgment with computational scale. These findings extend scaling law research to value-based judgments and provide empirical foundations for artificial intelligence governance.
- Abstract(参考訳): 自律システムはますます道徳的判断能力を必要としているが、これらの能力がモデルサイズで予測可能かどうかはまだ不明である。
我々はMoral Machineフレームワークを用いて75の大規模言語モデル構成(0.27B-1000Bパラメータ)を体系的に評価し,生命死ジレンマにおける人間の嗜好との整合性を測定した。
人間の嗜好からの距離による一貫した電力-法則関係(D$)は、$D \propto S^{-0.10\pm0.01}$$$R^2=0.50$, $p<0.001$)として減少する。
混合効果モデルでは、モデルファミリと推論能力を制御した後、この関係が持続することを確認した。
拡張推論モデルでは、スケール効果以上の16倍の改善が示される。
この関係は様々なアーキテクチャにまたがるが、大きなスケールでは分散が減少し、計算スケールによるより信頼性の高い道徳的判断の体系的な発生を示す。
これらの知見は、法律研究を価値に基づく判断にまで拡張し、人工知能ガバナンスの実証的な基盤を提供する。
関連論文リスト
- Towards a Comprehensive Scaling Law of Mixture-of-Experts [54.117786590884776]
本論文では,すべての重要な要因を考慮に入れた総合的かつ正確なMoEスケーリング法を提案する。
我々の結果は、$G$と$S$の最適設定が、モデルアーキテクチャとデータサイズの両方に依存しないことを示しています。
提案したMoEスケーリング法則は,将来のMoEモデル設計およびトレーニングを促進するための,正確かつ洞察に富んだガイダンスとして機能する可能性がある。
論文 参考訳(メタデータ) (2025-09-28T06:35:34Z) - Evaluation Awareness Scales Predictably in Open-Weights Large Language Models [8.165127822088499]
評価の認知度はモデルサイズとともに予測可能に向上することを示す。
このスケーリング法則は、将来の大規模モデルにおいて、偽装行動を予測することを可能にし、AI安全性のためのスケールアウェア評価戦略の設計をガイドする。
論文 参考訳(メタデータ) (2025-09-10T06:36:38Z) - Large-scale moral machine experiment on large language models [0.0]
我々は,52種類の大規模言語モデル(LLM)の自律走行シナリオにおける道徳的判断を評価する。
プロプライエタリなモデルとオープンソースモデルは100億以上のパラメータを持ち、人間の判断と比較的密接な一致を示した。
しかし、モデル更新は人間の嗜好との整合性を一貫して改善しておらず、多くのLCMは特定の倫理的原則に過度に重点を置いている。
論文 参考訳(メタデータ) (2024-11-11T08:36:49Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。