論文の概要: Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models
- arxiv url: http://arxiv.org/abs/2307.01379v1
- Date: Mon, 3 Jul 2023 22:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 18:57:06.260611
- Title: Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models
- Title(参考訳): 関連性への注意の移り変わり : 大規模言語モデルの不確実性推定に向けて
- Authors: Jinhao Duan, Hao Cheng, Shiqi Wang, Chenan Wang, Alex Zavalny, Renjing
Xu, Bhavya Kailkhura, Kaidi Xu
- Abstract要約: 大規模言語モデル(LLM)は、自然言語生成に大きな可能性を示している。
一部のトークンは、他のトークンよりも関連性(あるいは代表的)が高いが、不確実性を見積もる場合には、すべてのトークンが同等に評価される。
これらの不等式を生成的不等式とみなし、不確実性推定にどのように影響するかを考察する。
生成的不等式によって生じるこれらのバイアスに対処するために、より関連性の高い(SAR)コンポーネントに注意を移すことを提案する。
- 参考スコア(独自算出の注目度): 31.62104579634445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Large Language Models (LLMs) have shown great potential in Natural
Language Generation, it is still challenging to characterize the uncertainty of
model generations, i.e., when users could trust model outputs. Our research is
derived from the heuristic facts that tokens are created unequally in
reflecting the meaning of generations by auto-regressive LLMs, i.e., some
tokens are more relevant (or representative) than others, yet all the tokens
are equally valued when estimating uncertainty. It is because of the linguistic
redundancy where mostly a few keywords are sufficient to convey the meaning of
a long sentence. We name these inequalities as generative inequalities and
investigate how they affect uncertainty estimation. Our results reveal that
considerable tokens and sentences containing limited semantics are weighted
equally or even heavily when estimating uncertainty. To tackle these biases
posed by generative inequalities, we propose to jointly Shifting Attention to
more Relevant (SAR) components from both the token level and the sentence level
while estimating uncertainty. We conduct experiments over popular
"off-the-shelf" LLMs (e.g., OPT, LLaMA) with model sizes up to 30B and powerful
commercial LLMs (e.g., Davinci from OpenAI), across various free-form
question-answering tasks. Experimental results and detailed demographic
analysis indicate the superior performance of SAR. Code is available at
https://github.com/jinhaoduan/shifting-attention-to-relevance.
- Abstract(参考訳): 大規模言語モデル(llm)は自然言語生成において大きな可能性を秘めているが、モデル生成の不確実性、すなわちユーザがモデルの出力を信頼できることを特徴付けることは依然として困難である。
我々の研究は、トークンが自己回帰的LLMによって世代の意味を反映する不平等に生成されるというヒューリスティックな事実、すなわち、トークンは他よりも関連性(あるいは代表的)が高いが、不確実性を見積もる場合には、すべてのトークンが等しく評価されるという事実から導かれる。
言語的な冗長性のため、長文の意味を伝えるのに、ほとんどいくつかのキーワードが十分である。
これらの不等式を生成的不等式とみなし、不確実性推定にどのように影響するかを考察する。
その結果,不確実性を推定する際には,限定意味論を含む相当量のトークンや文が等しく重み付けされることが判明した。
生成的不等式によって生じるこれらのバイアスに対処するため,不確実性を推定しつつ,トークンレベルと文レベルの両方から,より関連性の高い(SAR)コンポーネントに注意を移すことを提案する。
我々は,30Bまでのモデルサイズと強力な商用LCM(例えば OpenAI の Davinci など)を,様々な自由形式の質問応答タスクで有望な "オフザシェルフ" LLM (例: OPT, LLaMA) 実験を行う。
実験結果と詳細な人口統計分析は,SARの優れた性能を示している。
コードはhttps://github.com/jinhaoduan/shifting-attention-to-relevanceで入手できる。
関連論文リスト
- Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Don't Go To Extremes: Revealing the Excessive Sensitivity and
Calibration Limitations of LLMs in Implicit Hate Speech Detection [31.831677567088782]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文 参考訳(メタデータ) (2024-02-18T00:04:40Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。