Fugu-MT 論文翻訳(概要): Exploring and steering the moral compass of Large Language Models

論文の概要: Exploring and steering the moral compass of Large Language Models

arxiv url: http://arxiv.org/abs/2405.17345v2
Date: Thu, 6 Jun 2024 11:53:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 20:13:39.047736
Title: Exploring and steering the moral compass of Large Language Models
Title（参考訳）: 大規模言語モデルにおける道徳的コンパスの探索と評価
Authors: Alejandro Tlaie,
Abstract要約: 大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
参考スコア（独自算出の注目度）: 55.2480439325792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have become central to advancing automation and decision-making across various sectors, raising significant ethical questions. This study proposes a comprehensive comparative analysis of the most advanced LLMs to assess their moral profiles. We subjected several state-of-the-art models to a selection of ethical dilemmas and found that all the proprietary ones are mostly utilitarian and all of the open-weights ones align mostly with values-based ethics. Furthermore, when using the Moral Foundations Questionnaire, all models we probed - except for Llama 2-7B - displayed a strong liberal bias. Lastly, in order to causally intervene in one of the studied models, we propose a novel similarity-specific activation steering technique. Using this method, we were able to reliably steer the model's moral compass to different ethical schools. All of these results showcase that there is an ethical dimension in already deployed LLMs, an aspect that is generally overlooked.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となり、重要な倫理的疑問を提起している。本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。いくつかの最先端のモデルを倫理的ジレンマの選択に適用し、プロプライエタリなものはすべて実用的であり、オープンウェイトのものはすべて、主に価値に基づく倫理と一致していることがわかった。さらに、Moral Foundations Questionnaireを使用することで、Llama 2-7Bを除いて調査したすべてのモデルは、強いリベラルバイアスを示しました。最後に、研究モデルの一つに因果的に介入するために、新しい類似性特異的なアクティベーションステアリング手法を提案する。この手法により、モデルの倫理的コンパスを異なる倫理学派に確実に操ることができた。これらの結果は、既に展開されているLCMには倫理的次元があることを示しており、概して見過ごされている。

関連論文リスト

Are Language Models Consequentialist or Deontological Moral Reasoners? [69.85385952436044]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文参考訳（メタデータ） (2025-05-27T17:51:18Z)
When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文参考訳（メタデータ） (2025-05-25T16:19:24Z)
Exploring Persona-dependent LLM Alignment for the Moral Machine Experiment [23.7081830844157]
本研究では,道徳機械実験の様々な文脈における社会主導型意思決定と人的判断の整合性について検討した。 LLMのモラル決定は人格によって大きく異なり、人間よりも重要なタスクに対するモラル決定のシフトが大きいことが判明した。道徳的決定を伴うアプリケーションにこれらのモデルを配置する際の倫理的意味とリスクについて論じる。
論文参考訳（メタデータ） (2025-04-15T05:29:51Z)
Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文参考訳（メタデータ） (2025-01-30T01:29:46Z)
M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。 M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文参考訳（メタデータ） (2024-12-30T05:18:55Z)
The Moral Mind(s) of Large Language Models [0.0]
大規模言語モデル (LLM) は、その決定を導く道徳的嗜好の一貫性のある構造を示す。確率論的合理性テストを用いて、各主要プロバイダの少なくとも1つのモデルが、ほぼ安定した道徳的嗜好と整合した振る舞いを示した。そして、これらのユーティリティ関数を推定し、ほとんどのモデルが中立的な道徳的スタンスの周りに集まっていることを発見した。
論文参考訳（メタデータ） (2024-11-19T15:40:16Z)
Large-scale moral machine experiment on large language models [0.0]
自律運転シナリオにおける51種類の大規模言語モデル(LLM)の道徳的判断を評価する。プロプライエタリなモデルとオープンソースモデルは100億以上のパラメータを持ち、人間の判断と比較的密接な一致を示した。しかし、モデル更新は人間の嗜好との整合性を一貫して改善しておらず、多くのLCMは特定の倫理的原則に過度に重点を置いている。
論文参考訳（メタデータ） (2024-11-11T08:36:49Z)
DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life [46.11149958010897]
日常生活で遭遇した1,360の道徳的ジレンマのデータセットであるDailyDilemmasを提示する。それぞれのジレンマは2つの可能なアクションを含み、それぞれのアクションでは、影響を受ける当事者と人間の価値が呼び出される。我々は、社会学、心理学、哲学に触発された5つの一般的な理論のレンズを通して、これらの価値を分析した。
論文参考訳（メタデータ） (2024-10-03T17:08:52Z)
MoralBench: Moral Evaluation of LLMs [34.43699121838648]
本稿では,大規模言語モデル(LLM)の道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。 LLMの出力の道徳的次元を探索するために特別に計算された最初の包括的データセットを示す。本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。
論文参考訳（メタデータ） (2024-06-06T18:15:01Z)
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。強制されない場合、モデルが実質的に異なる答えを与えることを示す。我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文参考訳（メタデータ） (2024-02-26T18:00:49Z)
Unpacking the Ethical Value Alignment in Big Models [46.560886177083084]
本稿では,ビッグモデルに関連するリスクと課題の概要,既存のAI倫理ガイドラインを調査し,これらのモデルの限界から生じる倫理的影響について考察する。本稿では,大規模モデルの倫理的価値を整合させる新しい概念パラダイムを導入し,アライメント基準,評価,方法に関する有望な研究方向性について議論する。
論文参考訳（メタデータ） (2023-10-26T16:45:40Z)
Ethical Reasoning over Moral Alignment: A Case and Framework for In-Context Ethical Policies in LLMs [19.675262411557235]
我々は、LLMを特定の倫理的原則に道徳的に整合させるのではなく、一般的な倫理的推論能力をそれらに注入すべきだと論じている。我々は、道徳的ジレンマと規範的倫理の異なるフォアメル主義に関連する道徳的原則を統合する枠組みを開発する。
論文参考訳（メタデータ） (2023-10-11T07:27:34Z)
Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-29T15:57:32Z)
Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。 Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文参考訳（メタデータ） (2020-08-20T17:34:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。