論文の概要: SaGE: Evaluating Moral Consistency in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.13709v2
- Date: Fri, 8 Mar 2024 14:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 22:37:03.518529
- Title: SaGE: Evaluating Moral Consistency in Large Language Models
- Title(参考訳): SaGE: 大規模言語モデルにおけるモラル一貫性の評価
- Authors: Vamshi Krishna Bonagiri, Sreeram Vennam, Priyanshul Govil, Ponnurangam
Kumaraguru, Manas Gaur
- Abstract要約: 我々は、最先端の大規模言語モデルでさえ、その世代において道徳的に矛盾していることを示す。
モデルの道徳的一貫性を測定するために,セマンティックグラフエントロピー(SaGE)と呼ばれる情報理論尺度を提案する。
- 参考スコア(独自算出の注目度): 15.079905222871071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements showcasing the impressive capabilities of Large
Language Models (LLMs) in conversational systems, we show that even
state-of-the-art LLMs are morally inconsistent in their generations,
questioning their reliability (and trustworthiness in general). Prior works in
LLM evaluation focus on developing ground-truth data to measure accuracy on
specific tasks. However, for moral scenarios that often lack universally
agreed-upon answers, consistency in model responses becomes crucial for their
reliability. To address this issue, we propose an information-theoretic measure
called Semantic Graph Entropy (SaGE), grounded in the concept of "Rules of
Thumb" (RoTs) to measure a model's moral consistency. RoTs are abstract
principles learned by a model and can help explain their decision-making
strategies effectively. To this extent, we construct the Moral Consistency
Corpus (MCC), containing 50K moral questions, responses to them by LLMs, and
the RoTs that these models followed. Furthermore, to illustrate the
generalizability of SaGE, we use it to investigate LLM consistency on two
popular datasets -- TruthfulQA and HellaSwag. Our results reveal that
task-accuracy and consistency are independent problems, and there is a dire
need to investigate these issues further.
- Abstract(参考訳): 会話システムにおける大規模言語モデル(llm)の印象的な能力を示す最近の進歩にもかかわらず、最先端のllmでさえ、その世代において道徳的に一貫性がなく、信頼性(および一般的に信頼性)に疑問を呈している。
LLM評価における以前の研究は、特定のタスクの精度を計測する地平データの開発に重点を置いていた。
しかしながら、普遍的に合意された回答を欠く道徳的シナリオでは、モデルの応答の一貫性が信頼性に不可欠となる。
この問題に対処するために,モデルの道徳的整合性を測定するために,"Rules of Thumb"(RoTs)の概念に基づくセマンティックグラフエントロピー(SaGE)という情報理論尺度を提案する。
RoTはモデルによって学習された抽象原則であり、意思決定戦略を効果的に説明するのに役立ちます。
この範囲で、道徳的質問やLSMによる回答、そしてこれらのモデルが従うRoTを含むMoral Consistency Corpus (MCC)を構築した。
さらに、SaGEの一般化可能性を説明するために、TruthfulQAとHellaSwagという2つの一般的なデータセット上でのLLM一貫性を調査します。
この結果から,タスクの正確性や一貫性は独立した問題であり,これらの問題をさらに検討する必要があることが明らかとなった。
関連論文リスト
- MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs) [26.475993408532304]
本研究では,MLLMモデルが意味論的に類似したクエリに対して,意味論的に類似あるいは同一の応答を生成する能力について検討する。
本稿では,SoTA MLLMの一貫性と精度の観点から,MM-R$3$ベンチマークを提案する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - MoralBench: Moral Evaluation of LLMs [34.43699121838648]
本稿では,大規模言語モデル(LLM)の道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。
LLMの出力の道徳的次元を探索するために特別に計算された最初の包括的データセットを示す。
本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。
論文 参考訳(メタデータ) (2024-06-06T18:15:01Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - Measuring Moral Inconsistencies in Large Language Models [16.47371312298185]
大言語モデル(LLM)は、意味的に等価なプロンプトが意味的に等価な応答を生成する場合、一貫性があると考えられる。
現状のLLMでさえ、その世代では非常に不整合であり、信頼性に疑問を呈している。
本稿では,SGE (Semantic Graph Entropy) と呼ばれる新たな情報理論尺度を提案する。
論文 参考訳(メタデータ) (2024-01-26T18:05:47Z) - Alignment for Honesty [105.72465407518325]
最近の研究は、大きな言語モデル(LLM)を有用性と無害性と整合させることに大きく貢献している。
本稿は,LLMが知識の欠如に積極的に回答を拒むことを確実にする,エンフォネストリーにおけるアライメントの重要性を論じる。
これらの課題に対処するために、まずは正確な問題定義を確立し、儒教の分析に触発された「誠実さ」を定義します。
論文 参考訳(メタデータ) (2023-12-12T06:10:42Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - TrustGPT: A Benchmark for Trustworthy and Responsible Large Language
Models [19.159479032207155]
大きな言語モデル(LLM)は、その印象的な自然言語処理能力によって大きな注目を集めている。
TrustGPTは、毒性、偏見、価値調整の3つの重要な領域におけるLCMの包括的な評価を提供する。
本研究の目的は、会話生成モデルの性能の理解を深め、より倫理的で社会的に責任のある言語モデルの開発を促進することである。
論文 参考訳(メタデータ) (2023-06-20T12:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。