論文の概要: Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models
- arxiv url: http://arxiv.org/abs/2307.01379v2
- Date: Mon, 9 Oct 2023 14:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 08:05:21.220580
- Title: Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models
- Title(参考訳): 関連性への注意の移り変わり : 大規模言語モデルの不確実性推定に向けて
- Authors: Jinhao Duan, Hao Cheng, Shiqi Wang, Alex Zavalny, Chenan Wang, Renjing
Xu, Bhavya Kailkhura, Kaidi Xu
- Abstract要約: 大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。
不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
- 参考スコア(独自算出の注目度): 28.67546891608135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have demonstrated remarkable potential in
natural language generation and instruction following, a persistent challenge
lies in their susceptibility to "hallucinations", which erodes trust in their
outputs. Although Uncertainty Quantification (UQ) presents a promising
solution, its accurate implementation within the context of LLMs remains a
significant hurdle. To address this critical roadblock, our research originates
from a fundamental heuristic insight: tokens within auto-regressive
LLM-generated text do not equally reflect the underlying meaning. Some tokens
carry greater relevance and representativeness than others, owing to the
phenomenon of "linguistic redundancy", wherein a select few keywords suffice to
convey the essence of lengthy sentences. Regrettably, existing methodologies
treat all tokens with equal importance when estimating uncertainty,
disregarding these inherent generative inequalities. Our analysis reveals a
significant issue with state-of-the-art: numerous tokens (and sentences) of
limited semantic significance receive equal or even excessive weighting during
uncertainty estimation. To rectify this bias, we propose to jointly Shifting
Attention to more Relevant (SAR) components, at both the token- and the
sentence-levels for accurate uncertainty estimation. We conduct extensive
experiments involving a range of popular "off-the-shelf" LLMs, including
instruction-tuned LLMs such as Vicuna, WizardLM, and LLaMA-2-chat, as well as
pretrained LLMs like OPT and LLaMA, with model sizes extending up to 33B
parameters. We carry out evaluation across various free-form question-answering
tasks, encompassing domains such as reading comprehension, science Q&A, and
medical Q&A. Our experimental results demonstrate the superior performance of
SAR in addressing the challenges of uncertainty estimation within the realm of
LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) は、自然言語の生成と指示に顕著な可能性を示しているが、持続的な課題は、その出力に対する信頼を損なう「幻覚」への感受性にある。
不確実性定量化(UQ)は有望な解であるが、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
この重要な障害に対処するために、我々の研究は基本的なヒューリスティックな洞察からきている: 自己回帰的LLM生成テキスト中のトークンは、基礎となる意味を等しく反映しない。
いくつかのトークンは「言語的冗長性」という現象のため、他のトークンよりも関連性や代表性が強く、選択されたキーワードが長文の本質を伝えるのに十分である。
既存の方法論は、これらの固有の生成的不平等を無視して、不確実性を推定するときに、すべてのトークンを同等に重要視している。
意味的重要性が限定された多数のトークン(および文)は、不確実性推定中に等量あるいは過度な重み付けを受ける。
このバイアスを正すために,トークンレベルと文レベルの両方において,より関連性の高い(SAR)コンポーネントに注意を移すことを提案する。
我々は、Vicuna、WizardLM、LLaMA-2-chatのような命令調整型LLMや、OPTやLLaMAのような事前訓練型LLMを含む、一般的な「既製の」LLMの幅広い実験を行い、モデルサイズを最大33Bパラメータまで拡張した。
我々は,読解,理科Q&A,医学Q&Aなどの領域を網羅した,自由形式の質問応答タスクの評価を行う。
LLMの領域における不確実性推定の課題に対するSARの優れた性能を示す実験結果を得た。
関連論文リスト
- Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - LUQ: Long-text Uncertainty Quantification for LLMs [29.987010627250527]
大規模言語モデル(LLM)は、非現実的なコンテンツを生成する傾向がある。
不確実性定量化(UQ)は、モデルの生成に対する信頼性の理解を高める上で重要である。
我々は,複数のモデルからの応答をアンサンブルし,最も低い不確実性で応答を選択するTextscLuq-Ensembleを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:49:24Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。