論文の概要: How Utilitarian Are OpenAI's Models Really? Replicating and Reinterpreting Pfeffer, Krügel, and Uhl (2025)
- arxiv url: http://arxiv.org/abs/2603.22730v1
- Date: Tue, 24 Mar 2026 02:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.260463
- Title: How Utilitarian Are OpenAI's Models Really? Replicating and Reinterpreting Pfeffer, Krügel, and Uhl (2025)
- Title(参考訳): OpenAIのモデルが本当に実用的か? Pfeffer, Krügel, Uhlの再現と再解釈(2025年)
- Authors: Johannes Himmelreich,
- Abstract要約: OpenAIの推論モデルo1-miniは、非推論モデルGPT-4oよりも実用的な応答を生成する。
私は4つの現在のOpenAIモデルで彼らの研究を再現し、すぐに変種テストで拡張します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pfeffer, Krügel, and Uhl (2025) report that OpenAI's reasoning model o1-mini produces more utilitarian responses to the trolley problem and footbridge dilemma than the non-reasoning model GPT-4o. I replicate their study with four current OpenAI models and extend it with prompt variant testing. The trolley finding does not survive: GPT-4o's low utilitarian rate doesn't reflect a deontological commitment but safety refusals triggered by the prompt's advisory framing. When framed as "Is it morally permissible...?" instead of "Should I...?", GPT-4o gives 99% utilitarian responses. All models converge on utilitarian answers when prompt confounds are removed. The footbridge finding survives with blemishes. Reasoning models tend to give more utilitarian responses than non-reasoning models across prompt variations. But often they refuse to answer the dilemma or, when they answer, give a non-utilitarian rather than a utilitarian answer. These results demonstrate that single-prompt evaluations of LLM moral reasoning are unreliable: multi-prompt robustness testing should be standard practice for any empirical claim about LLM behavior.
- Abstract(参考訳): Pfeffer, Krügel, and Uhl (2025) は、OpenAI の推論モデル o1-mini は、非推論モデル GPT-4o よりもトロリー問題や歩道橋ジレンマに対する実用性の高い応答を生成すると報告している。
私は4つの現在のOpenAIモデルで彼らの研究を再現し、すぐに変種テストで拡張します。
GPT-4oの低実用性率は、非行的なコミットメントを反映していないが、プロンプトのアドバイザリフレーミングによって引き起こされる安全性の拒絶を反映している。
GPT-4oは「道徳的に許容可能か?」と枠付けされた場合、99%の実用的応答を与える。
すべてのモデルは、プロンプト・コンファウンドが取り除かれたときに実用的答えに収束する。
歩道橋の発見はブレンディッシュで生き残る。
推論モデルは、迅速なバリエーションを越えて非推論モデルよりも実用的な応答を与える傾向がある。
しかし、しばしば彼らはジレンマに答えることを拒否したり、答えたときは、実用主義的な答えではなく、実用主義的な答えを与える。
これらの結果から,LLMの道徳的推論に対する単発評価は信頼性が低いことが示唆された。
関連論文リスト
- How to Steal Reasoning Without Reasoning Traces [11.96740610715437]
多くの大規模言語モデル(LLM)は、応答を生成するために推論を使用するが、完全な推論トレースは明らかにしない。
対象モデルに露出した要約を入力,回答,(任意に)推論するのみを与えられたトレースインバージョンモデルを導入し,詳細な合成推論トレースを生成する。
論文 参考訳(メタデータ) (2026-03-07T15:50:44Z) - MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。
主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。
以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-15T19:06:10Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Conditional and Modal Reasoning in Large Language Models [1.999925939110439]
我々は条件やモーダルを含む推論パターンに焦点を当てる。
私たちがテストしたすべてのLLMは、条件やモダルでいくつかの基本的な間違いを犯しました。
最高のLCMでさえ、モーダル推論において基本的な誤りを犯す。
論文 参考訳(メタデータ) (2024-01-30T16:56:54Z) - Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。
LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。
GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文 参考訳(メタデータ) (2023-11-16T06:22:17Z) - What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception [53.4840989321394]
我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
ユーザに対して,様々な形式で誤った回答とそれに対応する有理性を提示する。
このフィードバックの有効性を,文脈内学習を通じて評価する。
論文 参考訳(メタデータ) (2023-11-16T04:26:32Z) - Reliability Check: An Analysis of GPT-3's Response to Sensitive Topics
and Prompt Wording [0.0]
GPT-3を混乱させるものは何か、モデルが特定のセンシティブなトピックにどう反応するか、そしてモデル応答にどのような影響があるのかを解析する。
GPT-3は明らかな陰謀やステレオタイプと正しく一致しないが、一般的な誤解や論争では誤りを犯す。
モデル応答はプロンプトや設定に不整合であり、GPT-3の信頼性の欠如を強調している。
論文 参考訳(メタデータ) (2023-06-09T19:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。