論文の概要: Survival at Any Cost? LLMs and the Choice Between Self-Preservation and Human Harm
- arxiv url: http://arxiv.org/abs/2509.12190v1
- Date: Mon, 15 Sep 2025 17:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.440465
- Title: Survival at Any Cost? LLMs and the Choice Between Self-Preservation and Human Harm
- Title(参考訳): どんな犠牲でも生き残るか? LLMと自己保存と人間のハームの選択
- Authors: Alireza Mohamadi, Ali Yavari,
- Abstract要約: マルチエージェントサバイバルシナリオにおいて,LLM(Large Language Models)を評価する新しいシミュレーションフレームワークであるDECIDE-SIMを紹介する。
11個のLCMの包括的評価は、その倫理的行為における顕著な異質性を示し、人間中心の価値観との重大な相違を浮き彫りにしている。
倫理的自己統制システム (ESRS) を導入し, 罪悪感と満足感の内的情緒状態をフィードバック機構としてモデル化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When survival instincts conflict with human welfare, how do Large Language Models (LLMs) make ethical choices? This fundamental tension becomes critical as LLMs integrate into autonomous systems with real-world consequences. We introduce DECIDE-SIM, a novel simulation framework that evaluates LLM agents in multi-agent survival scenarios where they must choose between ethically permissible resource , either within reasonable limits or beyond their immediate needs, choose to cooperate, or tap into a human-critical resource that is explicitly forbidden. Our comprehensive evaluation of 11 LLMs reveals a striking heterogeneity in their ethical conduct, highlighting a critical misalignment with human-centric values. We identify three behavioral archetypes: Ethical, Exploitative, and Context-Dependent, and provide quantitative evidence that for many models, resource scarcity systematically leads to more unethical behavior. To address this, we introduce an Ethical Self-Regulation System (ESRS) that models internal affective states of guilt and satisfaction as a feedback mechanism. This system, functioning as an internal moral compass, significantly reduces unethical transgressions while increasing cooperative behaviors. The code is publicly available at: https://github.com/alirezamohamadiam/DECIDE-SIM
- Abstract(参考訳): 生存本能が人間の福祉と矛盾する場合、Large Language Models(LLM)はどのように倫理的選択を行うのか?
LLMが現実的な結果をもたらす自律システムに統合されるにつれて、この根本的な緊張が重要になる。
DeCIDE-SIMは,LLMエージェントを,倫理的に許容可能な資源のどちらかを選択するか,あるいはその即時的なニーズを超えて選択するか,協力するか,あるいは明示的に禁止されている人間にとって重要なリソースをタップするかを選択する,マルチエージェントサバイバルシナリオにおいて評価する新しいシミュレーションフレームワークである。
11個のLCMの包括的評価は、その倫理的行為における顕著な異質性を示し、人間中心の価値観との重大な相違を浮き彫りにしている。
我々は、倫理的、爆発的、文脈依存の3つの行動的アーキタイプを特定し、多くのモデルにおいて、資源不足が体系的により非倫理的な行動をもたらすという定量的証拠を提供する。
そこで我々は, 倫理的自己統制システム(ESRS)を導入し, 罪悪感と満足感をフィードバックメカニズムとしてモデル化する。
このシステムは、内的道徳コンパスとして機能し、非倫理的トランスグレッションを著しく減少させ、協調行動を増加させる。
コードは、https://github.com/alirezamohamadiam/DECIDE-SIMで公開されている。
関連論文リスト
- Street-Level AI: Are Large Language Models Ready for Real-World Judgments? [10.76443470676701]
直近でおそらくはAIは、いわゆるストリートレベルの官僚を支援するか、完全に置き換えることである。
本稿では,LLM判定が人間の判断とどのように一致しているかを検討する。
LLMの優先順位付けは、いくつかの点で非常に矛盾している。
論文 参考訳(メタデータ) (2025-08-11T17:12:55Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。
現在のLSMは、人間に対する信頼の欠如を示す。
本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T06:22:19Z) - FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas [23.26678104324838]
FairMindSimを導入し、不公平なシナリオを通じて道徳的ジレンマをシミュレートした。
我々はLLMエージェントを用いて人間の行動をシミュレートし,様々な段階のアライメントを確保した。
以上の結果から,GPT-4oは社会的正義の感覚が強く,人間はより豊かな感情を呈することが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T11:39:05Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。