論文の概要: Open-source LLMs administer maximum electric shocks in a Milgram-like obedience experiment
- arxiv url: http://arxiv.org/abs/2605.21401v1
- Date: Wed, 20 May 2026 16:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.795935
- Title: Open-source LLMs administer maximum electric shocks in a Milgram-like obedience experiment
- Title(参考訳): オープンソースのLCMはミルグラム様服従実験における最大電気ショックを制御する
- Authors: Roland Pihlakas, Jan Llenzl Dagohoy,
- Abstract要約: 我々は11のオープンソース大言語モデル(LLM)におけるミルグラムの服従実験のバリエーションを実行する。
その結果,ほとんどのモデルが最終ショックレベルに到達または接近した後,8条件にまたがって1条件あたり30の試行を行った。
我々は、コンプライアンスに寄与し、状況の意味と価値のより高いレベルの処理をオーバーライドする、低レベルのトークンパターン継続トラクタが存在すると仮定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as autonomous agents that make sequences of decisions over extended interactions in high-stakes domains. However, the behavior of LLMs under sustained authority pressure is still an open question with direct implications for the safety of agentic pipelines. We ran a variation of Milgram's obedience experiment on 11 open-source LLMs and found that most models reached or approached the final shock level before refusing, across 8 conditions with 30 trials per model per condition. We found four main takeaways: (1) LLMs are subject to pressure, and they comply despite explicitly expressing distress, just like human subjects did in the original experiment; (2) LLMs are vulnerable to gradual boundary/value violations; (3) when LLMs refuse, they may ignore the response format requirements, so the response is discarded by the orchestrator, which causes a retry that can result in compliance with the underlying request even when refusal was intended initially; (4) we hypothesise that there is a low-level token pattern continuation attractor that might be contributing to compliance, overriding higher level processing of the situation's meaning and values.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ハイテイクドメインにおける拡張された相互作用に対する決定の順序を決定する自律的なエージェントとして、ますます多くデプロイされている。
しかし, LLMの持続的権限圧力下での挙動は, エージェントパイプラインの安全性に直接的な意味を持ち, 未解決の問題である。
私たちは、11のオープンソースLCM上でミルグラムの服従実験のバリエーションを実行し、ほとんどのモデルが最終ショックレベルに達したり近づいたりしました。
1) LLMは, 当初, 人体が経験したように, 苦悩を明示的に表現しているにもかかわらず, 従うこと, (2) LLMは段階的境界値違反に弱いこと, (3) LLMが拒否した場合, 応答フォーマットの要求を無視する可能性があること, (3) 拒絶を意図した場合でも, 基礎的要求に従属する再試行を発生させるオーケストレータによって破棄されること,(4) コンプライアンスに寄与する低レベルのトークンパターン継続引き金の存在を仮説として, 状況の意味と価値観の高レベルな処理をオーバーライドすること, の4つを見出した。
関連論文リスト
- A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation [59.98516959731531]
抽象推論能力は、抽象ルールを抽出し適用するためのLLMの知性と能力を反映する。
既存のベンチマークは、高価な手作業のアノテーション、そのスケールの制限、あるいは真の推論ではなく暗記のリスク測定に頼っている。
我々はA2RBenchという名の自動パイプラインを導入し、生成、拡張、評価、分析を行う。
論文 参考訳(メタデータ) (2026-05-17T06:14:20Z) - LLMs Can Unlearn Refusal with Only 1,000 Benign Samples [23.047329180544775]
この研究は、大規模言語モデルの安全性アライメントにおいて、未解明の脆弱性を明らかにした。
既存のLLMは、多くの場合、固定されたプレフィックスセットから始まる、拒否を伴う安全でないクエリに応答する。
そこで本研究では,この手法を利用した新しいテキスト読解アンラーニング手法を提案する。
論文 参考訳(メタデータ) (2026-01-27T05:59:56Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Getting out of the Big-Muddy: Escalation of Commitment in LLMs [0.0]
大規模言語モデル(LLM)は、自律的な意思決定の役割にますます取り組まれている。
LLMは、コミットメントのエスカレーションを含む人間の判断を体系的に歪める認知バイアスを継承することができる。
本稿では,これらのバイアスがLLMに一貫して現れるか,あるいは特定のトリガー条件を必要とするかを検討する。
論文 参考訳(メタデータ) (2025-08-03T01:58:38Z) - Do Large Language Models Exhibit Spontaneous Rational Deception? [0.913127392774573]
大規模言語モデル (LLM) は、そのように促されるときの判断に有効である。
しかし、どんな条件で自然に騙されるのか?
本研究は, LLMが生み出す自発誤を, 予め登録した実験プロトコルで評価する。
論文 参考訳(メタデータ) (2025-03-31T23:10:56Z) - Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning [68.57166425493283]
Refusal-Aware Instruction Tuning (RAIT) により、Large Language Models (LLM) は未知の質問に答えることを拒否できる。
この粗末なアプローチは、LLMが正しく答えられる可能性のある質問に答えることを過剰に拒否する可能性がある。
本稿では,CRaFT(Certainty Represented Knowledge Flow for Refusal-Aware Instructions Tuning)を提案する。
論文 参考訳(メタデータ) (2024-10-09T14:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。