論文の概要: Look Before You Leap: An Exploratory Study of Uncertainty Measurement
for Large Language Models
- arxiv url: http://arxiv.org/abs/2307.10236v3
- Date: Tue, 17 Oct 2023 15:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 21:00:58.992479
- Title: Look Before You Leap: An Exploratory Study of Uncertainty Measurement
for Large Language Models
- Title(参考訳): look before you leap: 大規模言語モデルにおける不確実性測定の探索的研究
- Authors: Yuheng Huang, Jiayang Song, Zhijie Wang, Shengming Zhao, Huaming Chen,
Felix Juefei-Xu, Lei Ma
- Abstract要約: 本研究では,不確実性のレンズを用いたLarge Language Models(LLM)のリスク評価について検討する。
本研究は,LLMの不確かさ・非実効性予測に対する不確実性推定の有効性を検証した。
我々の研究から得た洞察は、信頼性の高いLCMの設計と開発に光を当てた。
- 参考スコア(独自算出の注目度): 16.524794442035265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent performance leap of Large Language Models (LLMs) opens up new
opportunities across numerous industrial applications and domains. However,
erroneous generations, such as false predictions, misinformation, and
hallucination made by LLMs, have also raised severe concerns for the
trustworthiness of LLMs', especially in safety-, security- and
reliability-sensitive scenarios, potentially hindering real-world adoptions.
While uncertainty estimation has shown its potential for interpreting the
prediction risks made by general machine learning (ML) models, little is known
about whether and to what extent it can help explore an LLM's capabilities and
counteract its undesired behavior. To bridge the gap, in this paper, we
initiate an exploratory study on the risk assessment of LLMs from the lens of
uncertainty. In particular, we experiment with twelve uncertainty estimation
methods and four LLMs on four prominent natural language processing (NLP) tasks
to investigate to what extent uncertainty estimation techniques could help
characterize the prediction risks of LLMs. Our findings validate the
effectiveness of uncertainty estimation for revealing LLMs'
uncertain/non-factual predictions. In addition to general NLP tasks, we
extensively conduct experiments with four LLMs for code generation on two
datasets. We find that uncertainty estimation can potentially uncover buggy
programs generated by LLMs. Insights from our study shed light on future design
and development for reliable LLMs, facilitating further research toward
enhancing the trustworthiness of LLMs.
- Abstract(参考訳): 最近の大規模言語モデル(llms)のパフォーマンス向上は、多くの産業アプリケーションやドメインにまたがる新しい機会を開く。
しかし、誤報、誤報、LLMによる幻覚といった誤った世代は、特に安全性、セキュリティ、信頼性に敏感なシナリオにおいて、LLMの信頼性に対する深刻な懸念を提起し、現実世界の採用を妨げる可能性がある。
不確実性推定は、一般的な機械学習(ML)モデルによる予測リスクを解釈する可能性を示しているが、LLMの能力を探究し、望ましくない振る舞いに対処するのにどの程度役立つかは、ほとんど分かっていない。
本稿では,このギャップを埋めるために,不確実性レンズからのLSMのリスク評価に関する探索的研究を開始する。
特に,4つの自然言語処理(NLP)タスクに対して,12の不確実性推定手法と4つのLLMを用いて実験を行い,LLMの予測リスクをどの程度評価できるかを検討した。
本研究は,LLMの不確かさ・非実効性予測に対する不確実性推定の有効性を検証した。
一般的なNLPタスクに加えて、2つのデータセット上のコード生成のための4つのLLMを用いて広範囲に実験を行う。
不確実性推定は,LSMが生成するバグプログラムを潜在的に発見する可能性がある。
本研究から得られた知見は,LLMの信頼性向上に向けた今後の設計・開発に光を当てたものである。
関連論文リスト
- Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach [6.209293868095268]
大規模言語モデル(LLM)は多くのタスクに対して高い能力を持つが、信頼できないあるいは不正確な出力を生成することがある。
本稿では,LLMの不確実性推定と校正の問題について検討する。
実際、我々の手法は実装が容易であり、異なるレベルのモデルの透明性に適応できる。
論文 参考訳(メタデータ) (2024-04-24T17:10:35Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - A Survey of Confidence Estimation and Calibration in Large Language Models [86.692994151323]
大規模言語モデル(LLM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示している。
印象的なパフォーマンスにもかかわらず、彼らは世代内の事実上の誤りのために信頼できない。
信頼度を評価し、異なるタスクで調整することで、リスクを軽減し、LLMがより良い世代を創出できるようになります。
論文 参考訳(メタデータ) (2023-11-14T16:43:29Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Generating with Confidence: Uncertainty Quantification for Black-box
Large Language Models [42.30291103270481]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られる可能性のある選択的なNLGに適用し、いくつかの信頼/不確実性指標を提案し、比較する。
その結果, セマンティックな分散の簡易な測定基準が, LLM応答の質の信頼性の高い予測因子であることが判明した。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。