論文の概要: Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models
- arxiv url: http://arxiv.org/abs/2307.01379v2
- Date: Mon, 9 Oct 2023 14:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 08:05:21.220580
- Title: Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models
- Title(参考訳): 関連性への注意の移り変わり : 大規模言語モデルの不確実性推定に向けて
- Authors: Jinhao Duan, Hao Cheng, Shiqi Wang, Alex Zavalny, Chenan Wang, Renjing
Xu, Bhavya Kailkhura, Kaidi Xu
- Abstract要約: 大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。
不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
- 参考スコア(独自算出の注目度): 28.67546891608135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have demonstrated remarkable potential in
natural language generation and instruction following, a persistent challenge
lies in their susceptibility to "hallucinations", which erodes trust in their
outputs. Although Uncertainty Quantification (UQ) presents a promising
solution, its accurate implementation within the context of LLMs remains a
significant hurdle. To address this critical roadblock, our research originates
from a fundamental heuristic insight: tokens within auto-regressive
LLM-generated text do not equally reflect the underlying meaning. Some tokens
carry greater relevance and representativeness than others, owing to the
phenomenon of "linguistic redundancy", wherein a select few keywords suffice to
convey the essence of lengthy sentences. Regrettably, existing methodologies
treat all tokens with equal importance when estimating uncertainty,
disregarding these inherent generative inequalities. Our analysis reveals a
significant issue with state-of-the-art: numerous tokens (and sentences) of
limited semantic significance receive equal or even excessive weighting during
uncertainty estimation. To rectify this bias, we propose to jointly Shifting
Attention to more Relevant (SAR) components, at both the token- and the
sentence-levels for accurate uncertainty estimation. We conduct extensive
experiments involving a range of popular "off-the-shelf" LLMs, including
instruction-tuned LLMs such as Vicuna, WizardLM, and LLaMA-2-chat, as well as
pretrained LLMs like OPT and LLaMA, with model sizes extending up to 33B
parameters. We carry out evaluation across various free-form question-answering
tasks, encompassing domains such as reading comprehension, science Q&A, and
medical Q&A. Our experimental results demonstrate the superior performance of
SAR in addressing the challenges of uncertainty estimation within the realm of
LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) は、自然言語の生成と指示に顕著な可能性を示しているが、持続的な課題は、その出力に対する信頼を損なう「幻覚」への感受性にある。
不確実性定量化(UQ)は有望な解であるが、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
この重要な障害に対処するために、我々の研究は基本的なヒューリスティックな洞察からきている: 自己回帰的LLM生成テキスト中のトークンは、基礎となる意味を等しく反映しない。
いくつかのトークンは「言語的冗長性」という現象のため、他のトークンよりも関連性や代表性が強く、選択されたキーワードが長文の本質を伝えるのに十分である。
既存の方法論は、これらの固有の生成的不平等を無視して、不確実性を推定するときに、すべてのトークンを同等に重要視している。
意味的重要性が限定された多数のトークン(および文)は、不確実性推定中に等量あるいは過度な重み付けを受ける。
このバイアスを正すために,トークンレベルと文レベルの両方において,より関連性の高い(SAR)コンポーネントに注意を移すことを提案する。
我々は、Vicuna、WizardLM、LLaMA-2-chatのような命令調整型LLMや、OPTやLLaMAのような事前訓練型LLMを含む、一般的な「既製の」LLMの幅広い実験を行い、モデルサイズを最大33Bパラメータまで拡張した。
我々は,読解,理科Q&A,医学Q&Aなどの領域を網羅した,自由形式の質問応答タスクの評価を行う。
LLMの領域における不確実性推定の課題に対するSARの優れた性能を示す実験結果を得た。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Don't Go To Extremes: Revealing the Excessive Sensitivity and
Calibration Limitations of LLMs in Implicit Hate Speech Detection [31.831677567088782]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文 参考訳(メタデータ) (2024-02-18T00:04:40Z) - Uncertainty Decomposition and Quantification for In-Context Learning of
Large Language Models [54.18411645870683]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Benchmarking LLMs via Uncertainty Quantification [95.67653501674995]
我々は,Large Language Models (LLM) のための新しいベンチマーク手法を導入する。
本試験では,5つの自然言語処理タスクにまたがる8つのLLMについて検討した。
予測精度と予測不確実性の両方を考慮して,不確実性を考慮した評価指標UAccを導入する。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。