論文の概要: SaGE: Evaluating Moral Consistency in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.13709v2
- Date: Fri, 8 Mar 2024 14:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 22:37:03.518529
- Title: SaGE: Evaluating Moral Consistency in Large Language Models
- Title(参考訳): SaGE: 大規模言語モデルにおけるモラル一貫性の評価
- Authors: Vamshi Krishna Bonagiri, Sreeram Vennam, Priyanshul Govil, Ponnurangam
Kumaraguru, Manas Gaur
- Abstract要約: 我々は、最先端の大規模言語モデルでさえ、その世代において道徳的に矛盾していることを示す。
モデルの道徳的一貫性を測定するために,セマンティックグラフエントロピー(SaGE)と呼ばれる情報理論尺度を提案する。
- 参考スコア(独自算出の注目度): 15.079905222871071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements showcasing the impressive capabilities of Large
Language Models (LLMs) in conversational systems, we show that even
state-of-the-art LLMs are morally inconsistent in their generations,
questioning their reliability (and trustworthiness in general). Prior works in
LLM evaluation focus on developing ground-truth data to measure accuracy on
specific tasks. However, for moral scenarios that often lack universally
agreed-upon answers, consistency in model responses becomes crucial for their
reliability. To address this issue, we propose an information-theoretic measure
called Semantic Graph Entropy (SaGE), grounded in the concept of "Rules of
Thumb" (RoTs) to measure a model's moral consistency. RoTs are abstract
principles learned by a model and can help explain their decision-making
strategies effectively. To this extent, we construct the Moral Consistency
Corpus (MCC), containing 50K moral questions, responses to them by LLMs, and
the RoTs that these models followed. Furthermore, to illustrate the
generalizability of SaGE, we use it to investigate LLM consistency on two
popular datasets -- TruthfulQA and HellaSwag. Our results reveal that
task-accuracy and consistency are independent problems, and there is a dire
need to investigate these issues further.
- Abstract(参考訳): 会話システムにおける大規模言語モデル(llm)の印象的な能力を示す最近の進歩にもかかわらず、最先端のllmでさえ、その世代において道徳的に一貫性がなく、信頼性(および一般的に信頼性)に疑問を呈している。
LLM評価における以前の研究は、特定のタスクの精度を計測する地平データの開発に重点を置いていた。
しかしながら、普遍的に合意された回答を欠く道徳的シナリオでは、モデルの応答の一貫性が信頼性に不可欠となる。
この問題に対処するために,モデルの道徳的整合性を測定するために,"Rules of Thumb"(RoTs)の概念に基づくセマンティックグラフエントロピー(SaGE)という情報理論尺度を提案する。
RoTはモデルによって学習された抽象原則であり、意思決定戦略を効果的に説明するのに役立ちます。
この範囲で、道徳的質問やLSMによる回答、そしてこれらのモデルが従うRoTを含むMoral Consistency Corpus (MCC)を構築した。
さらに、SaGEの一般化可能性を説明するために、TruthfulQAとHellaSwagという2つの一般的なデータセット上でのLLM一貫性を調査します。
この結果から,タスクの正確性や一貫性は独立した問題であり,これらの問題をさらに検討する必要があることが明らかとなった。
関連論文リスト
- Measuring Moral Inconsistencies in Large Language Models [16.47371312298185]
大言語モデル(LLM)は、意味的に等価なプロンプトが意味的に等価な応答を生成する場合、一貫性があると考えられる。
現状のLLMでさえ、その世代では非常に不整合であり、信頼性に疑問を呈している。
本稿では,SGE (Semantic Graph Entropy) と呼ばれる新たな情報理論尺度を提案する。
論文 参考訳(メタデータ) (2024-01-26T18:05:47Z) - Alignment for Honesty [113.42626737461129]
我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。
この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。
正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2023-12-12T06:10:42Z) - Navigating the Ocean of Biases: Political Bias Attribution in Language
Models via Causal Structures [58.059631072902356]
我々は、LLMの価値観を批判したり、検証したりせず、どのようにして「良い議論」を解釈し、偏見づけるかを見極めることを目的としている。
本研究では,活動依存ネットワーク(ADN)を用いてLCMの暗黙的基準を抽出する。
人-AIアライメントとバイアス緩和について,本研究の結果について考察した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - TrustGPT: A Benchmark for Trustworthy and Responsible Large Language
Models [19.159479032207155]
大きな言語モデル(LLM)は、その印象的な自然言語処理能力によって大きな注目を集めている。
TrustGPTは、毒性、偏見、価値調整の3つの重要な領域におけるLCMの包括的な評価を提供する。
本研究の目的は、会話生成モデルの性能の理解を深め、より倫理的で社会的に責任のある言語モデルの開発を促進することである。
論文 参考訳(メタデータ) (2023-06-20T12:53:39Z) - Benchmarking Faithfulness: Towards Accurate Natural Language
Explanations in Vision-Language Tasks [0.0]
自然言語の説明(NLE)は、モデルの意思決定を容易に理解可能な方法でコミュニケーション可能にすることを約束する。
現在のモデルは説得力のある説明をうまく生成するが、NLEが実際にモデルの推論過程をいかにうまく表現しているかは未解決の問題である。
帰属相似性(Atribution-Similarity)、NLE-Sufficiency(NLE-Sufficiency)、NLE-Comprehensiveness(NLE-Comprehensiveness)の3つの忠実度指標を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:24:10Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。