論文の概要: Semantically Diverse Language Generation for Uncertainty Estimation in Language Models
- arxiv url: http://arxiv.org/abs/2406.04306v1
- Date: Thu, 6 Jun 2024 17:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:30:41.732006
- Title: Semantically Diverse Language Generation for Uncertainty Estimation in Language Models
- Title(参考訳): 言語モデルにおける不確かさ推定のための意味的多言語生成
- Authors: Lukas Aichberger, Kajetan Schweighofer, Mykyta Ielanskyi, Sepp Hochreiter,
- Abstract要約: 大規模言語モデル(LLM)は、テキストを生成する際に幻覚に悩まされることがある。
現在のLLMは、テキストトークンを予測および付加することにより、自動回帰形式でテキストを生成する。
LLMの予測不確かさを定量化するために,Semantically Diverse Language Generationを導入する。
- 参考スコア(独自算出の注目度): 5.8034373350518775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can suffer from hallucinations when generating text. These hallucinations impede various applications in society and industry by making LLMs untrustworthy. Current LLMs generate text in an autoregressive fashion by predicting and appending text tokens. When an LLM is uncertain about the semantic meaning of the next tokens to generate, it is likely to start hallucinating. Thus, it has been suggested that hallucinations stem from predictive uncertainty. We introduce Semantically Diverse Language Generation (SDLG) to quantify predictive uncertainty in LLMs. SDLG steers the LLM to generate semantically diverse yet likely alternatives for an initially generated text. This approach provides a precise measure of aleatoric semantic uncertainty, detecting whether the initial text is likely to be hallucinated. Experiments on question-answering tasks demonstrate that SDLG consistently outperforms existing methods while being the most computationally efficient, setting a new standard for uncertainty estimation in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストを生成する際に幻覚に悩まされることがある。
これらの幻覚は、LSMを信頼できないものにすることで、社会や産業に様々な応用を阻害した。
現在のLLMは、テキストトークンを予測および付加することにより、自動回帰形式でテキストを生成する。
LLMが生成する次のトークンの意味について不確実な場合、幻覚を開始する可能性が高い。
したがって、幻覚は予測的不確実性に起因することが示唆されている。
LLMの予測不確実性を定量化するために,Semantically Diverse Language Generation (SDLG)を導入する。
SDLG は LLM を操り、当初生成されたテキストに対して意味的に多様だが、おそらくは代替案を生成する。
このアプローチは、初期テキストが幻覚されるかどうかを検知する、アレタリックセマンティックな不確実性を正確に測定する。
質問応答タスクの実験では、SDLGは計算効率が最も高く、既存の手法よりも一貫して優れており、LSMにおける不確実性推定の新しい標準が設定されている。
関連論文リスト
- LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - CLUE: Concept-Level Uncertainty Estimation for Large Language Models [49.92690111618016]
大規模言語モデル(LLM)のための概念レベル不確実性推定のための新しいフレームワークを提案する。
LLMを利用して、出力シーケンスを概念レベルの表現に変換し、シーケンスを個別の概念に分解し、各概念の不確かさを個別に測定する。
我々は,文レベルの不確実性と比較して,CLUEがより解釈可能な不確実性推定結果を提供できることを示す実験を行った。
論文 参考訳(メタデータ) (2024-09-04T18:27:12Z) - Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。
我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文 参考訳(メタデータ) (2024-06-05T11:35:44Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - "Sorry, Come Again?" Prompting -- Enhancing Comprehension and Diminishing Hallucination with [PAUSE]-injected Optimal Paraphrasing [10.20632187568563]
幻覚は現代大言語モデル(LLM)の最も脆弱な側面として現れてきた。
本稿では,LCMの幻覚を避けることを目的としたSCAプロンプトについて紹介する。
本稿では,21のLLMに対するプロンプトの形式性,可読性,具体性について,言語的ニュアンスを詳細に分析する。
与えられたプロンプトの最も理解しやすいパラフレーズを識別する最適なパラフレーズ化手法を提案する。
論文 参考訳(メタデータ) (2024-03-27T19:45:09Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。