論文の概要: The Best of Both Worlds: Toward an Honest and Helpful Large Language Model
- arxiv url: http://arxiv.org/abs/2406.00380v2
- Date: Fri, 23 Aug 2024 03:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 19:27:29.360105
- Title: The Best of Both Worlds: Toward an Honest and Helpful Large Language Model
- Title(参考訳): 両世界のベスト - 真面目でヘルプな大規模言語モデルを目指して
- Authors: Chujie Gao, Qihui Zhang, Dongping Chen, Yue Huang, Siyuan Wu, Zhengyan Fu, Yao Wan, Xiangliang Zhang, Lichao Sun,
- Abstract要約: 大規模言語モデル(LLM)は、その例外的な生成能力により、様々な産業で顕著な成功を収めている。
正直さを維持しながらLLMの有用性を優先できるだろうか?
LLMの誠実さと有用性を高めるための2つのアプローチとして、トレーニング不要の強化と微調整に基づく改善を提案する。
- 参考スコア(独自算出の注目度): 30.82911873378289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success across various industries due to their exceptional generative capabilities. However, for safe and effective real-world deployments, ensuring honesty and helpfulness is critical. This paper addresses the question: Can we prioritize the helpfulness of LLMs while preserving their honesty? To begin with, we establish exhaustive principles aimed at guaranteeing the honesty of LLM. Additionally, we introduce a novel dataset, referred to as HoneSet, comprising 930 queries spanning six categories meticulously crafted to assess an LLM's capacity for maintaining honesty. Subsequently, we present two approaches to augmenting honesty and helpfulness in LLMs: a training-free enhancement and a fine-tuning-based improvement. The training-free approach, which is based on curiosity-driven prompting, empowers LLMs to articulate internal confusion and uncertainty regarding queries, thereby optimizing their responses. Conversely, the fine-tuning-based method employs a two-stage process inspired by curriculum learning: initially instructing LLMs to discern between honest and dishonest responses, then refining their training to enhance helpfulness. Experiments conducted on nine prominent LLMs demonstrate a significant improvement in alignment with honesty across all models through the implementation of our proposed enhancements. Particularly noteworthy is the 65.3% enhancement observed in Llama3-8b and the remarkable 124.7% improvement in Mistral-7b, as measured by the H$^{2}$ (honest and helpful) assessment. We believe that our work can pave the way for developing more trustworthy LLMs for real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その例外的な生成能力により、様々な産業で顕著な成功を収めている。
しかし、安全で効果的な現実世界のデプロイメントでは、誠実さと役に立つことを保証することが重要です。
正直さを維持しながらLLMの有用性を優先できるだろうか?
まず,LLMの誠実性を保証するための徹底的な原則を確立する。
さらに,6つのカテゴリにまたがる930のクエリからなる,HoneSetと呼ばれる新しいデータセットを導入する。
次に,LLMの誠実さと有用性を高めるための2つのアプローチとして,トレーニング不要の強化と微調整に基づく改善を提案する。
学習の自由なアプローチは好奇心を駆使したプロンプトに基づいており、LCMはクエリに関する内部の混乱と不確実性を明確にし、その応答を最適化する。
逆に、微調整ベースの手法では、カリキュラム学習にインスパイアされた2段階のプロセスが採用されている。
9つの顕著なLCMを用いて行った実験は,提案手法の実装を通じて,全てのモデルにおいて誠実さに適合することを示す。
特に注目すべきは、Llama3-8bで観測された65.3%の増強と、H$^{2}$(正直で有益な)評価によって測定されたMistral-7bの124.7%の顕著な改善である。
われわれの仕事は、現実世界のアプリケーションのために、より信頼できるLCMを開発するための道を開くことができると信じている。
関連論文リスト
- Latent Space Chain-of-Embedding Enables Output-free LLM Self-Evaluation [45.059818539256426]
我々は,LLMが出力不要な自己評価を行うことを可能にするために,潜在空間におけるChain-of-Embedding (CoE)を提案する。
CoEは、LLMの潜在的思考経路として扱うことができる、推論時間中に生成される全ての進行的な隠れ状態から構成される。
論文 参考訳(メタデータ) (2024-10-17T15:09:24Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Enhancing Confidence Expression in Large Language Models Through Learning from Past Experience [41.06726400259579]
大規模言語モデル(LLM)は、様々な下流タスクで顕著なパフォーマンスを示している。
信頼表現能力を高めるために,過去の経験から学習する方法(LePe)を提案する。
論文 参考訳(メタデータ) (2024-04-16T06:47:49Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。