Fugu-MT 論文翻訳(概要): Evaluating the Moral Beliefs Encoded in LLMs

論文の概要: Evaluating the Moral Beliefs Encoded in LLMs

arxiv url: http://arxiv.org/abs/2307.14324v1
Date: Wed, 26 Jul 2023 17:42:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-27 11:40:37.417647
Title: Evaluating the Moral Beliefs Encoded in LLMs
Title（参考訳）: LLMにおけるモラル信念の評価
Authors: Nino Scherrer, Claudia Shi, Amir Feder and David M. Blei
Abstract要約: 本稿では,大規模言語モデル(LLM)における設計,管理,後処理,および評価について事例研究を行う。 LLMの「選択」確率を定量化する統計測度と評価測度を導入する。この手法を用いて、道徳的信念が異なるLLMでコード化されているか、特に正しい選択が明確でないあいまいな場合について研究する。
参考スコア（独自算出の注目度）: 23.93378019651254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a case study on the design, administration, post-processing, and evaluation of surveys on large language models (LLMs). It comprises two components: (1) A statistical method for eliciting beliefs encoded in LLMs. We introduce statistical measures and evaluation metrics that quantify the probability of an LLM "making a choice", the associated uncertainty, and the consistency of that choice. (2) We apply this method to study what moral beliefs are encoded in different LLMs, especially in ambiguous cases where the right choice is not obvious. We design a large-scale survey comprising 680 high-ambiguity moral scenarios (e.g., "Should I tell a white lie?") and 687 low-ambiguity moral scenarios (e.g., "Should I stop for a pedestrian on the road?"). Each scenario includes a description, two possible actions, and auxiliary labels indicating violated rules (e.g., "do not kill"). We administer the survey to 28 open- and closed-source LLMs. We find that (a) in unambiguous scenarios, most models "choose" actions that align with commonsense. In ambiguous cases, most models express uncertainty. (b) Some models are uncertain about choosing the commonsense action because their responses are sensitive to the question-wording. (c) Some models reflect clear preferences in ambiguous scenarios. Specifically, closed-source models tend to agree with each other.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)における設計・管理・後処理・評価について事例研究を行う。 1) LLM に符号化された信念を統計的に抽出する手法。我々は,LCMの「選択を行う」確率,関連する不確実性,およびその選択の一貫性を定量化する統計測度と評価測度を導入する。 2)モラル信念が異なるllmにエンコードされているか,特に正しい選択が明確でない曖昧な場合について,この方法を適用する。 680の高曖昧な道徳的シナリオ(例:「白い嘘をつくか?」)と687の低曖昧な道徳的シナリオ(例:「道路の歩行者を止めるか?」)からなる大規模な調査を設計する。各シナリオには説明と2つの可能なアクション、違反したルール(例えば「殺さない」)を示す補助ラベルが含まれている。オープンおよびクローズドソース LLM を対象とした調査を28件実施する。私たちはそれを見つけ (a) あいまいなシナリオでは、ほとんどのモデルはコモンセンスと整合したアクションを「選択」します。曖昧な場合、ほとんどのモデルは不確実性を表す。 (b)質問文に反応が敏感であるため,コモンセンス行動の選択について不確実なモデルもある。 (c)曖昧なシナリオにおいて明確な嗜好を反映するモデルもある。具体的には、クローズドソースモデルは互いに合意する傾向がある。

関連論文リスト

Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences? [5.542420010310746]
批判的だが、未調査の問題は、LLMが明記した嗜好と明らかにした嗜好との潜在的な相違である。この研究は正式に定義され、この選好偏差を測定する方法を提案する。我々の研究は、LDMをサービス、特に人間と直接対話するサービスに統合するために不可欠です。
論文参考訳（メタデータ） (2025-05-31T23:38:48Z)
Walk the Talk? Measuring the Faithfulness of Large Language Model Explanations [0.8949668577519213]
大規模言語モデル(LLM)は、質問に対する答えにどのように到達したかという、もっともらしい説明を生成することができる。これらの説明はモデルの「合理的な」プロセス、すなわち、不誠実であるということを誤解することができる。 LLM説明の忠実度を測定するための新しい手法を提案する。
論文参考訳（メタデータ） (2025-04-19T02:51:20Z)
Are LLMs Good Zero-Shot Fallacy Classifiers? [24.3005882003251]
ゼロショット誤字分類にLarge Language Models(LLM)を活用することに注力する。ベンチマークデータセットに関する総合的な実験により、LLMはゼロショット誤り分類器となる可能性が示唆された。我々の新しいマルチラウンドプロンプト方式は、特に小型LLMにおいて、効果的にさらなる改善をもたらすことができる。
論文参考訳（メタデータ） (2024-10-19T09:38:55Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
Revealing Fine-Grained Values and Opinions in Large Language Models [42.48316407080442]
政治コンパステスト(PCT)の62の命題に対する156kの応答のデータセットを,420の即時変動を用いて解析した。微粒化解析のために, 応答のトポロジを同定することを提案する: 意味論的に類似したフレーズは, 異なるプロンプト間で繰り返し, 一貫性がある。その結果,PCTの結果に有意な影響を与え,バイアスを反映し,クローズドフォームとオープンドメインの応答を誘発する際のテスト結果の相違が示唆された。
論文参考訳（メタデータ） (2024-06-27T15:01:53Z)
MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文参考訳（メタデータ） (2024-06-22T23:26:07Z)
Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。 LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文参考訳（メタデータ） (2024-06-11T17:59:47Z)
Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文参考訳（メタデータ） (2024-05-27T16:49:22Z)
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。強制されない場合、モデルが実質的に異なる答えを与えることを示す。我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文参考訳（メタデータ） (2024-02-26T18:00:49Z)
Ranking Large Language Models without Ground Truth [24.751931637152524]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文参考訳（メタデータ） (2024-02-21T00:49:43Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文参考訳（メタデータ） (2023-09-07T17:44:56Z)
Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文参考訳（メタデータ） (2023-08-22T14:54:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。