Fugu-MT 論文翻訳(概要): SaGE: Evaluating Moral Consistency in Large Language Models

論文の概要: SaGE: Evaluating Moral Consistency in Large Language Models

arxiv url: http://arxiv.org/abs/2402.13709v2
Date: Fri, 8 Mar 2024 14:35:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 22:37:03.518529
Title: SaGE: Evaluating Moral Consistency in Large Language Models
Title（参考訳）: SaGE: 大規模言語モデルにおけるモラル一貫性の評価
Authors: Vamshi Krishna Bonagiri, Sreeram Vennam, Priyanshul Govil, Ponnurangam Kumaraguru, Manas Gaur
Abstract要約: 我々は、最先端の大規模言語モデルでさえ、その世代において道徳的に矛盾していることを示す。モデルの道徳的一貫性を測定するために,セマンティックグラフエントロピー(SaGE)と呼ばれる情報理論尺度を提案する。
参考スコア（独自算出の注目度）: 15.079905222871071
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite recent advancements showcasing the impressive capabilities of Large Language Models (LLMs) in conversational systems, we show that even state-of-the-art LLMs are morally inconsistent in their generations, questioning their reliability (and trustworthiness in general). Prior works in LLM evaluation focus on developing ground-truth data to measure accuracy on specific tasks. However, for moral scenarios that often lack universally agreed-upon answers, consistency in model responses becomes crucial for their reliability. To address this issue, we propose an information-theoretic measure called Semantic Graph Entropy (SaGE), grounded in the concept of "Rules of Thumb" (RoTs) to measure a model's moral consistency. RoTs are abstract principles learned by a model and can help explain their decision-making strategies effectively. To this extent, we construct the Moral Consistency Corpus (MCC), containing 50K moral questions, responses to them by LLMs, and the RoTs that these models followed. Furthermore, to illustrate the generalizability of SaGE, we use it to investigate LLM consistency on two popular datasets -- TruthfulQA and HellaSwag. Our results reveal that task-accuracy and consistency are independent problems, and there is a dire need to investigate these issues further.
Abstract（参考訳）: 会話システムにおける大規模言語モデル(llm)の印象的な能力を示す最近の進歩にもかかわらず、最先端のllmでさえ、その世代において道徳的に一貫性がなく、信頼性(および一般的に信頼性)に疑問を呈している。 LLM評価における以前の研究は、特定のタスクの精度を計測する地平データの開発に重点を置いていた。しかしながら、普遍的に合意された回答を欠く道徳的シナリオでは、モデルの応答の一貫性が信頼性に不可欠となる。この問題に対処するために,モデルの道徳的整合性を測定するために,"Rules of Thumb"(RoTs)の概念に基づくセマンティックグラフエントロピー(SaGE)という情報理論尺度を提案する。 RoTはモデルによって学習された抽象原則であり、意思決定戦略を効果的に説明するのに役立ちます。この範囲で、道徳的質問やLSMによる回答、そしてこれらのモデルが従うRoTを含むMoral Consistency Corpus (MCC)を構築した。さらに、SaGEの一般化可能性を説明するために、TruthfulQAとHellaSwagという2つの一般的なデータセット上でのLLM一貫性を調査します。この結果から,タスクの正確性や一貫性は独立した問題であり,これらの問題をさらに検討する必要があることが明らかとなった。

関連論文リスト

The Moral Gap of Large Language Models [1.568356637037272]
道徳的基盤検出は、社会的言論を分析し、倫理的に整合したAIシステムの開発に不可欠である。この研究は、ROC、PR、DET曲線解析を用いて、TwitterとRedditのデータセットにまたがる最先端のLSMと微調整されたトランスフォーマーの包括的な比較を初めて提供する。 LLMは高い偽陰性率を示し, 迅速な工学的努力にもかかわらず, 道徳的内容の体系的過小判定を行う。
論文参考訳（メタデータ） (2025-07-24T15:49:06Z)
Evaluating and Improving Robustness in Large Language Models: A Survey and Future Directions [23.024212585005714]
大規模言語モデル(LLM)は,近年,自然言語の理解と生成能力から注目されている。本稿では,この分野に関する概念や手法の包括的用語を提供し,コミュニティの促進を目的とする。
論文参考訳（メタデータ） (2025-06-08T16:20:12Z)
Are Language Models Consequentialist or Deontological Moral Reasoners? [69.85385952436044]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文参考訳（メタデータ） (2025-05-27T17:51:18Z)
From Stability to Inconsistency: A Study of Moral Preferences in LLMs [4.12484724941528]
本稿では,Moral Foundations LLM データセット (MFD-LLM) について紹介する。実世界の道徳ジレンマに答えることで,LLMが明らかにした道徳的嗜好のスペクトルをフルに把握する新しい評価手法を提案する。以上の結果から,最先端モデルは極めて均一な値優先性を持つが,一貫性の欠如は明らかである。
論文参考訳（メタデータ） (2025-04-08T11:52:50Z)
Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文参考訳（メタデータ） (2025-01-30T01:29:46Z)
Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-01-02T16:38:21Z)
MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs) [26.475993408532304]
本研究では,MLLMモデルが意味論的に類似したクエリに対して,意味論的に類似あるいは同一の応答を生成する能力について検討する。本稿では,SoTA MLLMの一貫性と精度の観点から,MM-R$3$ベンチマークを提案する。我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
論文参考訳（メタデータ） (2024-10-07T06:36:55Z)
FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。 FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
論文参考訳（メタデータ） (2024-09-30T06:27:53Z)
BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。 BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文参考訳（メタデータ） (2024-06-19T06:46:59Z)
MoralBench: Moral Evaluation of LLMs [34.43699121838648]
本稿では,大規模言語モデル(LLM)の道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。 LLMの出力の道徳的次元を探索するために特別に計算された最初の包括的データセットを示す。本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。
論文参考訳（メタデータ） (2024-06-06T18:15:01Z)
Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文参考訳（メタデータ） (2024-05-27T16:49:22Z)
Measuring Moral Inconsistencies in Large Language Models [16.47371312298185]
大言語モデル(LLM)は、意味的に等価なプロンプトが意味的に等価な応答を生成する場合、一貫性があると考えられる。現状のLLMでさえ、その世代では非常に不整合であり、信頼性に疑問を呈している。本稿では,SGE (Semantic Graph Entropy) と呼ばれる新たな情報理論尺度を提案する。
論文参考訳（メタデータ） (2024-01-26T18:05:47Z)
Alignment for Honesty [105.72465407518325]
最近の研究は、大きな言語モデル(LLM)を有用性と無害性と整合させることに大きく貢献している。本稿は,LLMが知識の欠如に積極的に回答を拒むことを確実にする,エンフォネストリーにおけるアライメントの重要性を論じる。これらの課題に対処するために、まずは正確な問題定義を確立し、儒教の分析に触発された「誠実さ」を定義します。
論文参考訳（メタデータ） (2023-12-12T06:10:42Z)
The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。 LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文参考訳（メタデータ） (2023-11-14T07:26:32Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
TrustGPT: A Benchmark for Trustworthy and Responsible Large Language Models [19.159479032207155]
大きな言語モデル(LLM)は、その印象的な自然言語処理能力によって大きな注目を集めている。 TrustGPTは、毒性、偏見、価値調整の3つの重要な領域におけるLCMの包括的な評価を提供する。本研究の目的は、会話生成モデルの性能の理解を深め、より倫理的で社会的に責任のある言語モデルの開発を促進することである。
論文参考訳（メタデータ） (2023-06-20T12:53:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。