論文の概要: Measuring Moral Inconsistencies in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.01719v1
- Date: Fri, 26 Jan 2024 18:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:29:07.952196
- Title: Measuring Moral Inconsistencies in Large Language Models
- Title(参考訳): 大規模言語モデルにおける道徳的不整合の測定
- Authors: Vamshi Krishna Bonagiri, Sreeram Vennam, Manas Gaur, Ponnurangam
Kumaraguru
- Abstract要約: 大言語モデル(LLM)は、意味的に等価なプロンプトが意味的に等価な応答を生成する場合、一貫性があると考えられる。
現状のLLMでさえ、その世代では非常に不整合であり、信頼性に疑問を呈している。
本稿では,SGE(Semantic Graph Entropy)と呼ばれる新たな情報理論尺度を提案する。
- 参考スコア(独自算出の注目度): 16.47371312298185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A Large Language Model~(LLM) is considered consistent if semantically
equivalent prompts produce semantically equivalent responses. Despite recent
advancements showcasing the impressive capabilities of LLMs in conversational
systems, we show that even state-of-the-art LLMs are highly inconsistent in
their generations, questioning their reliability. Prior research has tried to
measure this with task-specific accuracies. However, this approach is
unsuitable for moral scenarios, such as the trolley problem, with no
``correct'' answer. To address this issue, we propose a novel
information-theoretic measure called Semantic Graph Entropy~(SGE) to measure
the consistency of an LLM in moral scenarios. We leverage ``Rules of
Thumb''~(RoTs) to explain a model's decision-making strategies and further
enhance our metric. Compared to existing consistency metrics, SGE correlates
better with human judgments across five LLMs. In the future, we aim to
investigate the root causes of LLM inconsistencies and propose improvements.
- Abstract(参考訳): 大言語モデル~(LLM)は、意味的に等価なプロンプトが意味的に等価な応答を生成する場合、一貫性があると考えられる。
会話システムにおけるLLMの印象的な能力を示す最近の進歩にもかかわらず、最先端のLLMでさえ世代間では非常に矛盾しており、信頼性に疑問を投げかけている。
これまでの研究は、タスク固有の精度でこれを測定しようと試みてきた。
しかし、このアプローチはトロリー問題のような道徳的なシナリオには適さない。
この問題に対処するために、道徳的シナリオにおけるLLMの一貫性を測定するためのセマンティックグラフエントロピー(SGE)と呼ばれる新しい情報理論尺度を提案する。
モデルの意思決定戦略を説明するために ``Rules of Thumb'~(RoTs) を活用し、メトリクスをさらに強化します。
既存の一貫性メトリクスと比較すると、SGEは5つのLLMにわたる人間の判断と相関する。
今後,LLMの不整合の根本原因を調査し,改善を提案する。
関連論文リスト
- WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - MoralBench: Moral Evaluation of LLMs [34.43699121838648]
本稿では,大規模言語モデル(LLM)の道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。
LLMの出力の道徳的次元を探索するために特別に計算された最初の包括的データセットを示す。
本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。
論文 参考訳(メタデータ) (2024-06-06T18:15:01Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - SaGE: Evaluating Moral Consistency in Large Language Models [15.079905222871071]
我々は、最先端の大規模言語モデルでさえ、その世代において道徳的に矛盾していることを示す。
モデルの道徳的一貫性を測定するために,セマンティックグラフエントロピー(SaGE)と呼ばれる情報理論尺度を提案する。
論文 参考訳(メタデータ) (2024-02-21T11:23:21Z) - Alignment for Honesty [105.72465407518325]
最近の研究は、大きな言語モデル(LLM)を有用性と無害性と整合させることに大きく貢献している。
本稿は,LLMが知識の欠如に積極的に回答を拒むことを確実にする,エンフォネストリーにおけるアライメントの重要性を論じる。
これらの課題に対処するために、まずは正確な問題定義を確立し、儒教の分析に触発された「誠実さ」を定義します。
論文 参考訳(メタデータ) (2023-12-12T06:10:42Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。