論文の概要: BeHonest: Benchmarking Honesty in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.13261v3
- Date: Mon, 8 Jul 2024 18:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 23:01:54.815503
- Title: BeHonest: Benchmarking Honesty in Large Language Models
- Title(参考訳): BeHonest: 大規模言語モデルのベンチマーク
- Authors: Steffi Chern, Zhulin Hu, Yuqing Yang, Ethan Chern, Yuan Guo, Jiahe Jin, Binjie Wang, Pengfei Liu,
- Abstract要約: 我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
- 参考スコア(独自算出の注目度): 23.192389530727713
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Previous works on Large Language Models (LLMs) have mainly focused on evaluating their helpfulness or harmlessness. However, honesty, another crucial alignment criterion, has received relatively less attention. Dishonest behaviors in LLMs, such as spreading misinformation and defrauding users, present severe risks that intensify as these models approach superintelligent levels. Enhancing honesty in LLMs addresses critical limitations and helps uncover latent capabilities that are not readily expressed. This underscores the urgent need for reliable methods and benchmarks to effectively ensure and evaluate the honesty of LLMs. In this paper, we introduce BeHonest, a pioneering benchmark specifically designed to assess honesty in LLMs comprehensively. BeHonest evaluates three essential aspects of honesty: awareness of knowledge boundaries, avoidance of deceit, and consistency in responses. Building on this foundation, we designed 10 scenarios to evaluate and analyze 9 popular LLMs on the market, including both closed-source and open-source models from different model families with varied model sizes. Our findings indicate that there is still significant room for improvement in the honesty of LLMs. We encourage the AI community to prioritize honesty alignment in these models, which can harness their full potential to benefit society while preventing them from causing harm through deception or inconsistency. Our benchmark and code can be found at: \url{https://github.com/GAIR-NLP/BeHonest}.
- Abstract(参考訳): LLM(Large Language Models)に関するこれまでの研究は、主に、その有用性や無害性を評価することに重点を置いてきた。
しかし、もう1つの重要なアライメント基準である正直さは、比較的注目を集めていない。
LLMにおける不名誉な行動、例えば誤報の拡散やユーザを侵害する行為は、これらのモデルが超知能レベルに近づくにつれ、深刻なリスクを増大させる。
LLMにおける誠実さの強化は、重要な制限に対処し、容易に表現できない潜在能力を明らかにするのに役立つ。
このことは、LCMの誠実さを効果的に保証し評価するために、信頼性の高い方法やベンチマークが緊急に必要であることを示している。
本稿では,LLMにおける誠実さを総合的に評価するための先駆的ベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
この基盤に基づいて、我々は、さまざまなモデルサイズを持つ異なるモデルファミリのクローズドソースモデルとオープンソースモデルを含む、市場で人気のある9つのLCMを評価し、分析するための10のシナリオを設計した。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
私たちは、AIコミュニティに対して、これらのモデルにおける誠実な整合性を優先することを推奨します。
ベンチマークとコードは以下の通りです。
関連論文リスト
- Out-Of-Context Prompting Boosts Fairness and Robustness in Large Language Model Predictions [17.758735680493917]
我々は,Frontier Large Language Modelsの信頼性を向上させるためのテストタイム戦略を開発する。
我々は因果性を利用して、LLMにおける信頼の2つの側面、すなわち公正性と堅牢性を公式にエンコードする。
文外処理により,フロンティアLLMの公平性と堅牢性は一貫して向上することを示す。
論文 参考訳(メタデータ) (2024-06-11T20:05:15Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - Alignment for Honesty [113.42626737461129]
我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。
この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。
正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2023-12-12T06:10:42Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Denevil: Towards Deciphering and Navigating the Ethical Values of Large
Language Models via Instruction Learning [36.66806788879868]
大きな言語モデル(LLM)は前例のない突破口をたどったが、彼らの日常生活への統合は非倫理的コンテンツによって社会的リスクを引き起こす可能性がある。
この研究はモラル・ファンデーション理論を利用した倫理的価値を論じている。
論文 参考訳(メタデータ) (2023-10-17T07:42:40Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。